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本 书 是 国内 目前 唯一 的 一 本 关于 InnoDB 的 著作 ， 由 资深 MySQL 专 家 亲自 执笔 ， 中 外 数据 
库 专家 联 祛 推荐 ， 权 威 性 毋庸 置疑 。 

内 容 深 入 ， 从 源 代码 的 角度 深度 解析 了 InnoDB 的 体系 结构 、 实 现 原 理 、 工 作 机 制 ， 并 给 出 
了 大 量 最 佳 实践 ， 能 帮助 你 系统 而 深入 地 掌握 InnoDB， 更 重要 的 是 ， 它 能 为 你 设计 和 管理 高 性 
能 、 高 可 用 的 数据 库 系 统 提 供 绝 佳 的 指导 。 注 重 实战 ， 全 书 辅 有 大 量 的 案例 ， 可 操作 性 极 强 。 

全 书 首先 全 景 式 地 介绍 了 MySQL 独 有 的 插件 式 存储 引擎 ， 分 析 了 MySQL 的 各 种 存储 引擎 
的 优势 和 应 用 环境 ， 接 着 以 InnoDB 的 内 部 实现 为 切 人 点 ， 逐 一 详细 讲解 了 InnoDB 存 储 引 擎 内 部 
的 各 个 功能 模块 ， 包 括 InnoDB 存 储 引 警 的 体系 结构 、 内 存 中 的 数据 结构 、 基 于 InnoDB 存 储 引擎 
的 表 和 页 的 物理 存储 、 索 引 与 算法 、 文 件 、 锁 、 事 务 、 备 份 ， 以 及 InnoDB 的 性 能 调 优 等 重要 的 
知识 ， 最 后 深入 解析 了 InnoDB 存 储 引擎 的 源 代码 结构 ， 对 大 家 阅读 和 理解 InnoDB 的 源 代码 有 重 
要 的 指导 意义 。 

本 书 适合 所 有 希望 构建 和 管理 高 性 能 、 高 可 用 性 的 MySQL 数 据 库 系统 的 开发 者 和 DBA 阅 读 。 
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It's fair to say that MySQL is the most popular open source database. It has a very large 
installed base and number of users. Let's see what are the reasons MySQL is so popular, where it 
stands currently, and maybe touch on some of its future (although predicting the future is rarely 
successful). 

Looking at the customer area of MySQL, which includes Facebook, Flickr, Adobe (in 
Creative Suite 3), Drupal, Digg, LinkedIn, Wikipedia, eBay, YouTube, Google AdSense (source 
http://mysql.com/customers/ and public resources), it's obvious that MySQL is everywhere. When 
you log in to your popular forum (powered by Bulleting) or blog (powered by WordPress), most 
likely it has MySQL as its backend database. Traditionally, two MySQL’s characteristics, 
simplicity of use and performance, were what allowed it to gain such popularity. In addition to that, 
availability on a very wide range of platforms (including Windows) and built-in replication, which 
provides an easy scale-out solution for read-only clients, gave more user attractions and production 
deployments. There is simple evidence of MySQL’s simplicity: In 15 Peor leS$, you really 
can get installed, have a working database, and start running queries and store data. From its early 
stages MySQL had a good interface to most popular languages for Web development - PHP and 
Perl, and also Java and ODBC connectors. 

There are two best known storage engines in MySQL: MyISAM and InnoDB (I don’t cover 
NDB cluster here; it's a totally different story). MyISAM comes as the default storage engine and 
historically it is the oldest, but InnoDB is ACID compliant and provides transactions, row-level 
locking, MVCC, automatic recovery and data corruption detection. This makes ‘it the storage 
engine you want to choose for your application. Also, there is the third-party transaction storage 
engine PBXT, with characteristics similar to InnoDB, which is included in the MariaDB 
distribution. 

MySQU's simplicity has its own drawback. Just as it is very easy to start working with it, it is 


very easy to start getting into trouble with it. As soon as your website or forum gets popular, you 
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may figure out that the database is a bottleneck, and that you need special skills and tools to fix it. 
The author of this book is a MySQL expert, especially in InnoDB storage engineB. Hence, I 
highly recommend this book to new users of InnoDB as well as uers who already have well-tuned 


InnoDB-based applications but need to get internal out of them. 


Vadim Tkachenko 

4 3&2. MySQL À J£ EAR 4-38 44 BH Perconaz* è] CTO 

知名 MySQL 数 据 库 博客 MySQLPerformanceBlog.com 作 者 
《高 性 能 MySQL (第 2 版 )》 作 者 之 一 


went uA 
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软考 官方 指定 教材 及 同步 辅导 书 下 载 | 软考 历年 真是 解析 与 答案 
软考 视频 | 考试 机 构 | 考试 时 间 安 排 

Java 一 览 无 余 : Java 视频 教程 | Java SE | Java EE 

Net 技术 精品 资料 下 载 汇总 : ASP.NET 篇 

Net 技术 精品 资料 下 载 汇总 : CHES 

.Net 技术 精品 资料 下 载 汇总 : VB.NET 篇 

撼 世 出 击 : C/C++ 编 程 语 言 学 习 资 料 尽 收 眼底 电子 书 + 视 频 教程 
Visual C++(VC/MFC) 学 习 电 子 书 及 开发 工具 下 载 

Perl/CGI 脚本 语言 编程 学 习 资源 下 载 地 址 大 全 

Python 语言 编程 学 习 资料 (电子 书 + 视 频 教 程 ) 下 载 汇总 

最 新 最 全 Ruby. Ruby on Rails 精品 电子 书 等 学 习 资料 下 载 
数据 库 精 品 学 习 资 源 汇总 ， MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/xHTML, CSS 精品 学 习 资 料 下 载 汇总 

最 新 JavaScript, Ajax 典藏 级 学 习 资料 下 载 分 类 汇总 

网 络 最 强 PHP 开发 工具 + 电子 书 十 视频 教程 等 资料 下 载 汇 总 

UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 

经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教程 一 帖 通 
天 罗 地 网 : 精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 

Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇总 

UNIX 操作 系统 精品 学 习 资料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索 引 
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过 去 这 些 年 ,我 一直 在 和 各 种 不 同 的 数据 库 打 交道 ， 见 证 了 MySQL 从 一 个 小 型 的 关系 型 数 
据 库 发 展 成 为 各 大 企业 的 核心 数据 库 系统 的 过 程 , 并 且 参 与 了 一 些 大 大 小 小 的 项 目的 开发 工作 ， 
成 功 地 帮助 开发 人 员 构 建 了 一 些 可 靠 、 健 壮 的 应 用 程序 。 在 这 个 过 程 中 积累 了 一 些 经 验 ， 正 是 
这 些 不 断 累 积 的 经 验 赋予 了 我 灵感 ， 于 是 有 了 本 书 。 这 本 书 实际 上 反映 了 这 些 年 来 我 做 了 哪些 
事情 ， 汇 集 了 很 多 同行 每 天 可 能 都 会 遇 到 的 一 些 问 题 ， 并 给 出 了 解决 方案 。 

MySQL 数 据 库 独 有 的 插件 式 存储 引擎 架构 使 得 它 与 其 他 任何 数据 库 都 不 同 ， 不 同 的 存储 引 
擎 有 着 完全 不 同 的 功能 ， 而 InnoDB 存 储 引擎 的 存在 使 得 MySQL 跃 人 了 企业 级 数据 库 领 域 。 本 
书 完 整地 讲解 了 InnoDB 存 储 引擎 中 最 重要 的 一 些 内 容 ， 即 InnoDB 的 体系 结构 和 工作 原理 ， 并 
结合 InnoDB 的 源 代码 讲解 了 它 的 内 部 实现 机 制 。 

本 书 不 仅 介绍 了 InnoDB 存 储 引 擎 的 诸多 功能 和 特性 ， 而 且 还 阐述 了 如 何 正 确 地 使 用 这 些 功 
能 和 特性 。 更 重要 的 是 ， 它 还 尝试 教 大 家 如 何 Think Different, Think Different 是 20 世 纪 90 年 代 
苹果 公司 在 其 及 日 持久 的 宣传 活动 中 提出 的 一 个 口号 ， 借 此 来 重 振 公 司 的 品牌 ， 更 重要 的 是 改 
变 人 们 对 技术 在 日 常生 活 中 的 作用 的 看 法 。 需 要 注意 的 是 ， 苹 果 的 口号 不 是 Think Differently, 
而 是 Think Different。 这 里 的 Different 是 名 词 ， 意 味 该 思考 些 什么 。 

很 多 DBA 和 开发 人 员 都 相信 某 些 “神话 ”， 然 而 这 些 “ 神 话 ” 往 往 都 是 错误 的 。 无 论 计算 
机 技术 发 展 的 速度 变 得 多 快 、 数 据 库 的 使 用 变 得 多 么 简单 ， 任 何 时 候 WHY 都 比 WHAT 重 要 。 
只 有 真正 地 理解 了 内 部 实现 原理 、 体 系 结 构 ， 才 能 更 好 地 去 使 用 。 这 正 是 人 类 正确 思考 问题 的 
原则 。 因 此 ， 对 于 当前 出 现 的 技术 ， 尽 管 学 习 应 用 层面 的 技术 很 重要 ， 但 更 重要 的 是 ， 应 当 正 
确 地 理解 和 使 用 这 些 技术 。 

关于 这 本 书 ， 我 想 实现 好 几 个 目标 ， 但 最 重要 的 是 想 告 诉 大 家 如 下 几 个 简单 的 观点 : 

口 不 要 相信 任何 “神话 ”， 学 会 自己 思考 。 

口 不 要 墨守成规 ， 大 部 分 人 都 知道 的 事情 可 能 是 错误 的 。 

口 不 要 相信 网 上 的 传言 ， 去 测试 ， 根 据 自己 的 实践 做 出 决定 。 

口 花 时 间 充分 地 思考 ， 敢 于 提出 质疑 。 
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为 什么 写本 书 


当前 有 关 MySQL 的 书籍 大 部 分 都 集中 在 教 读者 如 何 使 用 MySQL， 例 如 SQL 语句 的 使 用 、 
复制 的 搭建 、 数 据 的 切 分 等 。 没 错 ， 这 对 快速 掌握 和 使 用 MySQL 数 据 库 非常 有 好 处 ， 但 是 真 
正 的 数据 库 工 作者 需要 了 解 的 不 仅仅 是 应 用 ， 更 多 的 是 内 部 的 具体 实现 。 

MySQL 数 据 库 独 有 的 插件 式 存储 引擎 结构 使 得 想 要 在 一 本 书 内 完整 地 讲解 各 个 存储 引擎 变 
得 十 分 困难 。 有 的 书 可 能 偏重 于 对 MyISAM 的 介绍 ， 有 的 书 则 可 能 偏重 于 对 InnoDB 存 储 引 擎 的 
介绍 。 对 于 初级 的 DBA 来 说 ， 这 可 能 会 使 他 们 的 理解 变 得 更 困难 。 对 于 大 多 数 MySQL DBA 和 
开发 人 员 来 说 ， 他 们 往往 更 希望 了 解 作为 MySQL 企 业 级 数据 库 应 用 的 第 一 存储 引擎 一 一 
.InnoDB 。 我 想 在 本 书 中 ， 他 们 可 以 找到 他 们 想 要 的 内 容 。 

再 强调 一 遍 ， 任 何 时 候 WHY 都 比 WHAT 重 要 。 本 书 从 源 代 码 的 角度 对 InnoDB 的 存储 引擎 
的 整个 体系 架构 的 各 个 组 成 部 分 进行 了 系统 的 分 析 和 讲解 ， 章 析 了 lnnoDB 存 储 引擎 的 核心 实 
现 和 工作 机 制 ， 相 信 这 在 其 他 书 中 是 很 难 找到 的 。 


本 书面 向 的 读者 


本 书 不 是 一 本 面向 应 用 的 数据 库 类 书籍 ， 也 不 是 一 本 参考 手册 ， 更 不 会 教 你 如 何在 MySQL 
中 使 用 SQL 语句 。 本 书面 向 那些 使 用 MySQL InnoDB 存 储 引擎 作为 数据 库 后 端 开发 应 用 程序 的 
开发 者 和 有 一 定 经 验 的 MySQL DBA。 书 中 的 大 部 分 例子 都 是 用 SQL 语句 来 展示 关键 特性 的 ， 
如 果 想 通过 本 书 来 了 解 如 何 启动 MySQL， 如 何 配置 Replication 环 境 ， 可 能 并 不 能 如 愿 。 不 过 ， 
通过 本 书 ， 你 将 理解 InnoDB 存 储 引 擎 是 如 何 工作 的 ， 它 的 关键 特性 的 功能 和 作用 是 什么 ， 以 及 
如 何 正确 地 配置 和 使 用 这 些 特 性 。 

如 果 想 更 好 地 使 用 InnoDB 存 储 引 警 ， 如 果 想 让 你 的 数据 库 应 用 获得 更 好 的 性 能 ， 就 请 阅读 
本 书 。 从 某 种 程度 上 讲 ， 技 术 经 理 或 总 监 也 要 非常 了 解数 据 库 ， 要 知道 数据 库 对 于 企业 的 重要 
性 。 如 果 技术 经 理 或 总 监 想 安排 员工 参加 MySQL 数 据 库 技术 方面 的 培训 ， 完 全 可 以 利用 本 书 
来 “充电 ”， 相 信 你 一 定 不 会 失望 的 。 

要 想 更 好 地 学 习 本 书 ， 要 求 具备 以 下 条 件 : 

Q 掌握 SQL。 

口 掌握 基本 的 MySQL 操 作 。 

口 接触 过 一 些 高 级 语言 ， 如 C、C++、Python 或 Java。 

O 对 一 些 基 本 算法 有 所 了 解 ， 因 为 本 书 会 分 析 InnoDB 存 储 引 警 的 部 分 涛 代码 ， 如 果 你 能 

看 懂 这 些 代 码 ， 这 会 对 你 的 理解 非常 有 帮助 。 
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如 何 阅读 本 书 


本 书 一 共有 10 章 ， 每 一 章 都 像 一 本 “迷你 书 ”， 可 以 单独 成 册 ， 也 就 说 ， 你 完全 可 以 从 书 
中 任何 一 章 开 始 阅读 。 例 如 ， 要 了 解 第 10 章 中 的 InnoDB 源 代码 编译 和 调试 的 知识 ， 就 不 必 先 去 
阅读 第 3 章 有 关 文 件 的 知识 。 当 然 ， 如 果 你 不 太 确定 自己 是 否 已 经 对 本 书 所 涉及 的 内 容 已 经 完 
全 人 掌握， 建议 你 系统 地 阅读 本 书 。 

本 书 不 是 一 本 人 门 书 ， 不 会 一 步 步 3 引导 你 去 如 何 操作 。 倘 若 你 尚 不 了 解 InnoDB 存 储 引擎 ， 
本 书 对 你 来 说 可 能 就 显得 沉重 了 些 ， 建 议 你 先 查 阅 官方 的 API 文 档 ， 大 致 掌握 InnoDB 的 基础 知 
识 ， 然 后 再 来 阅读 本 书 ， 相 信 你 会 领略 到 不 同 的 风景 。 

需要 特别 说 明 的 是 ， 附 录 B ~D 详 细 给 出 了 Master Thread、Doublewrite、 哈 希 算法 和 哈 希 
表 的 源 代码 ， 前 面 学 习 了 这 些 理论 知识 ， 再 适当 地 阅读 这 些 源 代码 ， 相 信 有 经 验 的 DBA 可 以 更 
好 地 掌握 和 理解 InnoDB 存 储 引擎 的 本 质 。 为 了 便于 大 家 了 阅读， 本 书 在 提供 源 代 码 下 载 的 同时 也 
将 源 代码 附 在 了 书 中 ， 因 此 占 去 了 一 些 篇 幅 ， 还 请 大 家 理解 。 
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在 编写 本 书 的 过 程 中 ， 我 得 到 了 很 多 朋友 的 热心 帮助 。 首 先 要 感谢 Pecona 公 司 的 CED 
Peter Zaitsev 和 CTO Vadim Tkachenko， 通 过 与 他 们 的 不 断交 流 ， 使 得 我 对 InnoDB 存 储 引 获 有 
了 更 进一步 的 了 解 ， 同 时 知道 了 怎样 才能 正确 地 将 InnoDB 存 储 引擎 的 补丁 应 用 到 生产 环境 。 

其 次 ， 我 要 感谢 和 久 游 网 公司 的 各 位 同事 们 。 能 在 才华 横 洪 、 充 满 创意 的 团队 中 工作 ， 我 感 
到 非常 荣幸 和 兴奋 。 也 因为 在 这 个 开放 的 工作 环境 中 ， 我 才 得 以 不 断 地 进行 研究 和 创新 。 

此 外 ， 我 还 要 感谢 我 的 母亲 ， 写 书 不 是 一 件 容 易 的 事 ， 特 别 是 本 书 还 想 传达 一 些 思 想 ， 在 
这 个 过 程 中 我 遇 到 了 很 多 的 困难 ， 感 谢 她 在 这 个 过 程 中 给 予 我 的 支持 和 鼓励 。 

最 后 ， 一 份 特 别 的 感谢 要 送 给 本 书 的 策划 编辑 杨 福 川 先生 和 曾 珊 女士 ， 他 们 使 得 本 书 变 得 
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第 1 章 ”MySQL 体系 结构 和 和 存储 5| 擎 


MySQL 被 设计 为 一 个 可 移植 的 数据 库 ， 几 乎 能 在 当前 所 有 的 操作 系统 上 运行 ， 如 
Linux、Solaris、FreeBSD、Mac 和 Windows。 尽 管 各 种 系统 在 底层 (如 线程 ) 实现 方面 各 
有 不 同 ， 但 是 MySQL 有 几乎 能 保证 在 各 平台 上 的 物理 体系 结构 的 一 致 性 。 所 以 ， 你 应 该 能 很 
好 地 理解 MySQL 在 所 有 这 些 平台 上 是 如 何 工作 的 。 


1.1 定义 数据 库 和 实例 


在 数据 库 领 域 中 有 两 个 词 很 容易 混淆 ， 它 们 就 是 “实例 ”(instance) 和 “数据 库 ” 
(database) 。 作 为 常见 的 数据 库 术语 ， 这 两 个 词 的 定义 如 下 。 
OC) 数据 库 : 物理 操作 系统 文件 或 其 他 形式 文件 类 型 的 集合 。 在 MySQL 中 ， 数 据 库 文 
件 可 以 是 fm、myd、myi、ibd 结 尾 的 文件 。 当 使 用 NDB 引 擎 时 ， 数 据 库 的 文件 可 
能 不 是 操作 系统 上 的 文件 ， 而 是 存放 于 内 存 之 中 的 文件 ， 但 是 定义 仍然 不 变 。 

C) 数据 库 实例 : 由 数据 库 后 台 进 程 /线程 以 及 一 个 共享 内 存 区 组 成 。 共 享 内 存 可 以 被 
运行 的 后 台 进 程 /线程 所 共享 。 需 要 牢记 的 是 ， 数 据 库 实例 才 是 真正 用 来 操作 数据 
库 文件 的 。 

这 两 个 词 有 时 可 以 互 换 使 用 ， 但 两 者 的 概念 完全 不 同 。 在 MySQL 中 ， 实 例 和 数据 库 的 
通常 关系 是 一 一 对 应 ， 即 一 个 实例 对 应 一 个 数据 库 ， 一 个 数据 库 对 应 一 个 实例 。 但 是 ， 在 
集群 情况 下 可 能 存在 一 个 数据 库 可 被 多 个 实例 使 用 的 情况 。 

MySQL 被 设计 为 一 个 单 进程 多 线程 架构 的 数据 库 ， 这 点 与 SQL Server 比 较 类 似 ， 但 与 
Oracle 多 进程 的 架构 有 所 不 同 (Oracle 的 Windows 版 本 也 是 单 进程 多 线程 的 架构 )。 这 也 就 
是 说 ，MySQL 数 据 库 实例 在 系统 上 的 表现 就 是 一 个 进程 。 

在 Linux 操 作 系 统 中 启动 MySQL 数 据 库 实例 ， 命 令 如 下 所 示 : 


[root@xen-server bin]# ./mysqld safe & 
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[rootüxen-server bin]# ps -ef | grep mysqld 

root 3441 3258 0 10:23 pts/3 00:00:00 
/bin/sh ./mysqld safe 
mysql 3578 3441 0 10:23 pts/3 00:00:00 
/usr/local/mysql/libexec/mysqld --basedir=/usr/local/mysql 
--datadir=/usr/local/mysql/var --user=mysql 
--log-error-/usr/local/mysql/var/xen-server.err 
--pid-file-/usr/local/mysql/var/xen-server.pid 
--socket=/tmp/mysql.sock --port=3306 

root 3616 3258 0 10:27 pts/3 00:00:00 grep mysqld 


请 注意 进程 号 为 3578 的 进程 ， 该 进程 就 是 MySQL 实 例 。 这 里 我 们 使 用 了 mysqld_safe 
命令 来 启动 数据 库 ， 启 动 MySQL 实 例 的 方法 还 有 很 多 ， 在 各 种 平台 下 的 方式 可 能 会 有 所 不 
同 。 在 这 里 不 一 一 举例 。 

当 启 动 实例 时 ，MySQL 数 据 库 会 去 读 取 配 置 文件 ， 根 据 配置 文件 的 参数 来 启动 数据 库 
实例 。 这 与 Oracle 的 参数 文件 (spfile) 相似 ， 不 同 的 是 ， 在 Oracle 中 ， 如 果 没 有 参数 文件 ， 
启动 时 会 提示 找 不 到 该 参数 文件 ， 数 据 库 启动 失败 。 而 在 MySQL 数 据 库 中 ， 可 以 没有 配置 
文件 ， 在 这 种 情况 下 ，MySQL 会 按照 编译 时 的 默认 参数 设置 启动 实例 。 用 以 下 命令 可 以 查 
看 ， 当 MySQL 数 据 库 实例 启动 时 ， 它 会 在 哪些 位 置 查找 配置 文件 。 


[root@xen-server bin]# ./mysql --help | grep my.cnf 
order of preference, my.cnf, $MYSQL TCP PORT, 
/etc/my.cnf /etc/mysql/my.cnf /usr/local/mysql/etc/my.cnf -/.my.cnf 


"TAE SI, MySQL Je TE/etc/my.cnf— /etc/mysql/my.cnf —/usr/local/mysql/etc/my.cnf— 
~/.my-cnf 的 顺序 读 取 配置 文件 的 。 可 能 有 人 会 问 :“ 如 果 几 个 配置 文件 中 都 有 同一 个 参数 ， 
MySQL 以 哪个 配置 文件 为 准 ? ”答案 很 简单 ，MySQL 会 以 读 取 到 的 最 后 一 个 配置 文件 中 
的 参数 为 准 。 在 Linux 环 境 下 ， 配 置 文件 一 般 放 在 /etc/my.cnf 下 。 在 Windows 平 台 下 ， 配 置 
文件 的 后 缀 名 可 以 是 .cnf， 也 可 能 是 .ini。 运 行 mysql -help 命 令 ， 可 以 找到 以 下 的 内 容 : 


Default options are read from the following files in the given order: 
C:\Windows\my.ini C:\Windows\my.cnf C:\my.ini C:\my.cnf 
C:\Program Files\MySQL\M\MySQL Server 5.1\my.cnf 


配置 文件 中 有 一 个 datadir 参 数 , 该 参数 指定 了 数据 库 所 在 的 路 径 。 在 Linux 操 作 系 统 下 ， 
datadir 默 认为 /usrlocal/mysql/data。 当 然 ， 你 可 以 修改 该 参数 ， 或 者 就 使 用 该 路 径 ， 但 该 
路 径 只 是 一 个 链接 ， 如 下 所 示 : | 
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mysql» show variables like 'datadir'\G; 


e e e fe e e de e e ode de oe fe de oe ode de he eode he de de e n n gx Le row e fe e che hee eee oe ee e eoe eee eoe eoe oe e Ri 
Variable name: datadir 
Value: /usr/local/mysql/data/ 


1 row in set (0.00 sec)1 row in set (0.00 sec) 


mysql>system ls -lh /usr/local/mysql/data 
total 32K 
drwxr-xr-x 16:23 bin 
16:23 docs 
16:04 include 
16:04 lib 


libexec 


root mysql 4.0K Aug 


2 
drwxr-xr-x 2 root mysql 4.0K Aug 
drwxr-xr-x 3 root mysql 4.0K Aug 
drwxr-xr-x 3 
2 


drwxr-xr-x root mysql 4.0K Aug 


drwxr-xr-x 10 root mysql 4.0K Aug 
.0K Aug 


+0K Aug 


16:23 mysql-test 

16:04 share 

16:23 sql-bench 

16:05 data -> /opt/mysql data/ 


ua 


drwxr-Xr-x 


a 
4 
4 

root mysql 4.0K Aug 
4 
DI 
root mysql 4 
4 


u 


drwxr-xr-x root mysql 


a a aa a aaa aaa 
-— 
o 
N 
w 


H 


lrwxrwxrwx root mysql 16 Aug 


从 上 面 可 以 看 到 ,其 实 data 目 录 是 一 个 链接 , 该 链接 指向 了 /opt/mysql_data 目 录 。 当 然 ， 
必须 保证 /opt/mysql_data 的 用 户 和 权限 ， 使 得 只 有 mysql 用 户 和 组 可 以 访问 。 


1.2 MySQL 体 系 结构 


由 于 工作 的 缘故 ， 我 很 大 一 部 分 时 间 都 花 在 对 开发 人 员 进 行 数据 库 方面 的 沟通 和 培训 
上 。 此 外 ， 不 论 他 们 是 DBA， 还 是 开发 人 员 ， 似 乎 都 对 MySQL 的 体系 结构 了 解 得 不 够 透 
彻 。 很 多 人 喜欢 把 MySQL 与 他 们 以 前 使 用 过 的 SQL Server、Oracle、DB2 作 比较 。 因 此 ， 
我 常常 会 听 到 这 样 的 疑问 : 

O 为 什么 MySQL 不 支持 全 文 索引 ? 

O MySQL 速 度 快 是 因为 它 不 支持 事务 ? 

C) 数据 量 大 于 1 000W 时 ，MySQL 的 性 能 会 急剧 下 降 吗 ? 

对 于 MySQL 的 疑问 还 有 很 多 很 多 ， 在 我 解释 这 些 问题 之 前 ， 我 认为 ， 不 管 使 用 哪 种 数 
据 库 ， 了 解数 据 库 的 体系 结构 都 是 最 为 重要 的 。 

在 给 出 体系 结构 图 之 前 ， 我 想 你 应 该 理解 了 前 一 节 提 出 的 两 个 概念 : 数据 库 和 数据 库 
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实例 。 很 多 人 会 把 这 两 个 概念 混淆 ， 即 MySQL 是 数据 库 ，MySQL 也 是 数据 库 实 例 。 你 这 
样 来 理解 Oracle 和 SQL Server 可 能 是 正确 的 ， 但 这 对 于 以 后 理解 MySQL 体 系 结构 中 的 存储 
引擎 可 能 会 带 来 问题 。 从 概念 上 来 说 ， 数 据 库 是 文件 的 集合 ， 是 依照 某 种 数据 模型 组 织 起 
来 并 存放 于 二 级 存储 器 中 的 数据 集合 ， 数 据 库 实例 是 应 用 程序 ， 是 位 于 用 户 与 操作 系统 之 
间 的 一 层 数 据 管理 软件 ， 用 户 对 数据 库 数 据 的 任何 操作 ， 包 括 数据 库 定 义 、 数 据 查询 、 数 
据 维 护 、 数 据 库 运 行 控制 等 ， 都 是 在 数据 库 实 例 下 进行 的 ， 应 用 程序 只 有 通过 数据 库 实 例 
才能 和 数据 库 打交道 

如 果 这 样 讲解 后 你 还 是 觉得 不 明白 ， 那 我 再 换 一 种 更 直 白 的 方式 来 解释 : 数据库 是 由 
一 个 个 文件 组 成 〈 一 般 来 说 都 是 二 进 制 的 文件 ) 的 ， 如 果 要 对 这 些 文件 执行 诸如 SELECT、 
INSERT、UPDATE 和 DETELE 之 类 的 操作 , 不 能 通过 简单 的 操作 文件 来 更 改 数据 库 的 内 容 ， 
需要 通过 数据 库 实例 来 完成 对 数据 库 的 操作 。 所 以 ， 如 果 你 把 Oracle、SQL Server、 
MySQL 简 单 地 理解 成 数据 库 ， 可 能 是 有 失 偏 颇 的 ， 虽 然 在 实际 使 用 中 我 们 并 不 会 这 么 强调 
两 者 之 间 的 区 别 。 好 了 ， 在 给 出 上 述 这 些 复杂 枯燥 的 定义 后 ， 现 在 我 们 可 以 来 看 看 MySQL 
数据 库 的 体系 结构 了 ， 如 图 1-1I 所 示 。 


g liic : SS : j Š 
a Connectors 
TY Native C API, JDBC, ODBC, NET, PHP, Perl, Python, Ruby, Cobol 


o 














Connection Pool 
Service & Authentication, Thead Reuse, Connection Limits, Check Memory, Caches 


Utillties REZZA 
SQL Interface Parser Optimizer | Cathes & Buffers 


Backup & | DML, DDL, Stored d Quary Translation § Access Paths, 
a | Procedures Views, Object Privilege Statistics | Specific Caches & 
| Triggers, etc. " ; Buffers 


= 
=. 
a 








File system Files & Logs 
NTFS, ufs, ext2/3 Redo, Undo, Data, Index, i 
NFS, SAN, NAS Binary, Error, Query and Slow Sj E 


图 1-1 MySQL 体 系 结构 
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从 图 1-1 我 们 可 以 发 现 ，MySQL 由 以 下 几 部 分 组 成 : 
口 连接 字 组 件 。 

CQ) 管理 服务 和 工具 组 件 。 

O SQL 接口 组 件 。 

O 查询 分 析 器 组 件 。 

C) 优化 器 组 件 。 

O 缓冲 (Cache) 组 件 。 

O 插件 式 存储 引擎 。 

C) 物理 文件 。 

从 图 1-1 还 可 以 看 出 ，MySQL 区 别 于 其 他 数据 库 的 最 重要 的 特点 就 是 其 插件 式 的 表 存 储 
引擎 。MySQL 揪 件 式 的 存储 引擎 架构 提供 了 一 系列 标准 的 管理 和 服务 支持 ， 这 些 标准 与 存 
储 引 擎 本 身 无 关 ， 可 能 是 每 个 数据 库 系 统 本 身 都 必需 的 ， 如 SQL 分 析 器 和 优化 器 等 ， 而 存 
储 引 擎 是 底层 物理 结构 的 实现 ， 每 个 存储 引擎 开发 者 都 可 以 按照 自己 的 意愿 来 进行 开发 。 





注意: 存储 引 掌 是 基于 表 的 ， 而 不 是 数据 库 。 请 牢 牢记 住 图 1-1 所 示 的 MySQL 休 —— 
系 结构 图 ， 它 对 于 你 以 后 深入 了 解 MySQL 有 极 大 的 帮助 。 


1.3 MySQL 表 存储 引擎 


1.2 节 大 致 讲解 了 MySQL 数 据 库 独 有 的 插件 式 体系 结构 ， 并 介绍 了 存储 引擎 是 MySQL 
区 别 于 其 他 数据 库 的 一 个 最 重要 特性 。 存 储 引 擎 的 好 处 是 ， 每 个 存储 引擎 都 有 各 自 的 特点 ， 
能 够 根据 具体 的 应 用 建立 不 同 的 存储 引擎 表 。 对 于 开发 人 员 来 说 ， 存 储 引 擎 对 其 是 透明 的 ， 
但 了 解 各 种 存储 引擎 的 区 别 对 于 开发 人 员 来 说 也 是 有 好 处 的 。 对 于 DBA 来 说 ， 他 们 应 该 深 
刻 地 认识 到 MySQL 的 核心 是 存储 引擎 。 

由 于 MySQL 是 开源 的 ， 你 可 以 根据 MySQL 预 定义 的 存储 引擎 接口 编写 自己 的 存储 引 
擎 ， 或 者 是 如 果 你 对 某 种 存储 引擎 不 满意 ， 可 以 通过 修改 源码 来 实现 自己 想 要 的 特性 ， 这 
就 是 开源 的 魅力 所 在 。 比 如 ，eBay 的 Igor Chernyshev 工 程 师 对 MySQL Memory 存 储 引擎 的 
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改进 (http://code.google.com/p/mysql-heap-dynamic-rows/), # RF FeBayfl) 
Personalization Platform ，Google 和 Facebook 等 公司 也 对 MySQL 进 行 了 相 类 似 的 修改 。 我 
曾 尝 试 过 对 InnoDB 存 储 引 敖 的 缓冲 池 进行 扩展 ， 为 其 添加 了 基于 SSD 的 辅助 缓冲 地 日 ， 通 
过 利用 SSD 的 高 随机 读 取 性 能 来 进一步 提高 数据 库 本 身 的 性 能 。 当 然 ，MySQL 自 身 提供 的 
存储 引擎 已 经 足够 满足 绝 大 多 数 应 用 的 需求 。 如 果 你 有 兴趣 ， 完 全 可 以 开发 自己 的 存储 引 
擎 来 满足 自己 特定 的 需求 。MySQL 官 方 手册 的 第 16 章 给 出 了 编写 自 定义 存储 引擎 的 过 程 ， 
不 过 这 已 超出 了 本 书 的 范围 。 

由 于 MySQL 的 开源 特性 ， 存 储 引擎 可 以 分 为 MySQL 官 方 存储 引擎 和 第 三 方 存储 引擎 。 
有 些 第 三 方 存储 引擎 很 强大 ， 如 大 名 刚 昂 的 InnoDB 存 储 引 擎 〈 现 已 被 Oracle 收 购 ) ， 其 应 
用 就 极其 广泛 ， 甚 至 是 MySQL 数 据 库 OLTP (Online Transaction Processing， 在 线 事务 处 
理 ) 应 用 中 使 用 最 广泛 的 存储 引擎 。 还 是 那 句 话 ， 我 们 应 该 根据 具体 的 应 用 选择 适合 的 存 
储 引擎 ， 以 下 是 对 一 些 存储 引擎 的 简单 介绍 ， 以 便于 大 家 选择 时 参考 。 


1.3.4 _ InnoDB 存 储 引 人 擎 


InnoDB 存 储 引 擎 支持 事务 ， 主 要 面向 在 线 事务 处 理 (OLTP) 方面 的 应 用 。 其 特点 是 
行 锁 设计 、 支 持 外 键 ， 并 支持 类 似 于 Oracle 的 非 锁定 读 ， 即 默认 情况 下 读 取 操作 不 会 产生 
BI, MySQL 在 Windows 版 本 下 的 InnoDB 是 默认 的 存储 引擎 ， 同 时 InnoDB 上 默认 地 被 包含 在 
所 有 的 MySQL 二 进 制 发 布 版 本 中 。 

InnoDB 存 储 引擎 将 数据 放 在 一 个 逻辑 的 表 空 间 中 ， 这 个 表 空 间 就 像 黑 盒 一 样 由 InnoDB 
自身 进行 管理 。 从 MySQL 4.1 (包括 4.1) 版 本 开始 ， 它 可 以 将 每 个 mnoDB 存 储 引擎 的 表 
单独 存放 到 一 个 独立 的 ibd 文 件 中 。 与 Oracle 类 似 ，InnoDB 存 储 引擎 同样 可 以 使 用 裸 设备 
(row disk) 来 建立 其 表 空间 。 

InnoDB 通 过 使 用 多 版 本 并 发 控制 (MVCC) 来 获得 高 并 发 性 ， 并 且 实 现 了 SQL 标准 的 
4 种 隔离 级 别 ， 默 认为 REPEAIABLE 级 别 。 同 时 使 用 一 种 被 称 为 next-key locking 的 策略 来 
避免 幻 读 (phantom) 现象 的 产生 。 除 此 之 外 ，InnoDB 储 存 引 擎 还 提供 了 插入 缓冲 (insert 
buffer)、 二 次 写 (double write) 、 自 适应 哈 希 索引 (adaptive Rash dex): mia (read 


© 详 见 ; http://code.google.com/p/david-mysql-tools/wiki/innodb_secondary_buffer_pool, 
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ahead) 等 高 性 能 和 高 可 用 的 功能 。 

对 于 表 中 数据 的 存储 ，InnoDB 存 储 引擎 采用 了 聚集 (clustered) 的 方式 ， 这 种 方式 类 
似 于 Oracle 的 索引 聚集 表 (index organized table，IOT) 。 每 张 表 的 存储 都 按 主键 的 顺序 存 
放 ， 如 果 没 有 显 式 地 在 表 定 义 时 指定 主键 ，InnoDB 存 储 引 擎 会 为 每 一 行 生成 一 个 6 字 节 的 
ROWID， 并 以 此 作为 主键 。 


1.3.2 MylSAM#g5] & 


MyISAM 在 储 引擎 是 MySQL 官 方 提供 的 存储 引擎 。 其 特点 是 不 支持 事务 、 表 锁 和 全 文 
索引 ， 对 于 一 些 OLAP (Online Analytical Processing， 在 线 分 析 处 理 ) 操作 速度 快 。 除 
Windows 版 本 外 ， 是 所 有 MySQL 版 本 默认 的 存储 引擎 。 | 

MyYISAM 存 储 引擎 表 由 MYD 和 MYI 组 成 ，MYD 用 来 存放 数据 文件 ，MYI 用 来 存放 索 
引文 件 。 可 以 通过 使 用 myisampack 工 具 来 进一步 压缩 数据 文件 ， 因 为 myisampack 工 具 使 
用 赫 夫 曼 (Huffman) 编码 静态 算法 来 压缩 数据 ， 因 此 使 用 myisampack 工 具 压 缩 后 的 表 是 
只 读 的 ， 当 然 你 也 可 以 通过 myisampack 来 解压 数据 文件 。 

在 MySQL 5.0 版 本 之 前 ，MyISAM 默 认 支 持 的 表 大 小 为 4G， 如 果 需 要 支持 大 于 4G 的 
MyISAM 表 时 ， 则 需要 制定 MAX_ROWS 和 AVG_ROW_LENGTH 属 性 。 从 MySQL 5.0 版 本 
开始 ，MyISAM 上 默认 支持 256T 的 单 表 数 据 ， 这 足够 满足 一 般 应 用 的 需求 。 


缓存 交 由 操作 系统 本 身 来 完成 ， 这 与 其 他 使 用 LRU 算 法 缓存 数据 的 大 部 分 数据 库 
大 不 相同 。 此 外 ， 在 MySQL 5.1.23 版 本 之 前 ， 无 论 是 在 32 位 还 是 64 位 操作 系统 环 
境 下 ,缓存 索引 的 手 冲 区 最 大 只 能 设置 为 4G。 在 之 后 的 版 本 中 ，64 位 系统 可 以 支 
桂 大 于 4G 的 索引 缓冲 区 。 


1.3.3 NDB 存 储 引 擎 


20034£, MySQL AB 公 司 从 Sony Ericsson 公 司 收 购 了 NDB 集群 引擎 (图 1-1 中 Cluster 
引擎 ) 。NDB 存 储 引擎 是 一 个 集群 存储 引擎 ， 类 似 于 Oracle 的 RAC 集 群 ， 不 过 ， 与 Oracle 
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RAC share everything 结 构 不 同 的 是 ， 其 结构 是 share nothing 的 集群 架构 ， 因 此 能 提供 更 高 
级 别 的 高 可 用 性 。NDB 的 特点 是 数据 全 部 放 在 内 存 中 (从 5.1 版 本 开始 ， 可 以 将 非 索引 数 
据 放 在 磁盘 上 )， 因 此 主键 查找 (primary key lookup) 的 速度 极 快 ， 并且 通过 添加 NDB 数 
据 存 储 节 点 (Data Node) 可 以 线性 地 提高 数据 库 性 能 ， 是 高 可 用 、 高 性 能 的 集群 系统 。 

关于 NDB 存 储 引 擎 ， 有 一 个 问题 值得 注意 ， 那 就 是 NDB 存 储 引擎 的 连接 操作 (JOIN) 
是 在 MySQL 数 据 库 层 完成 的 ， 而 不 是 在 存储 引擎 层 完成 的 。 这 意味 着 ,复杂 的 连接 操作 需 
要 巨大 的 网 络 开销 ， 因 此 查询 速度 很 慢 。 如 果 解 决 了 这 个 问题 ，NDB 存 储 引 警 的 市 场 应 该 
是 非常 巨大 的 。 


注意 : MySQL NDB Cluster 存 储 引 营 有 社区 版 本 和 企业 版 本 ， 并 且 NDB Cluster 已 
作为 Carrier Grade Edition 单 独 下 载 版 本 而 存在 ， 可 以 通过 http://dev.mysql.comy/ 
downloads/cluster/index.html 获 得 最 新 版 本 的 NDB Cluster 4 5] ¥ , 


1.3.4 _ Memory 存储 引擎 


Memory 存 储 引擎 (之 前 称 为 HEAP 存 储 引擎 ) 将 表 中 的 数据 存放 在 内 存 中 ， 如 果 数 据 
库 重 启 或 发 生 崩 省， 表 中 的 数据 都 将 消失 。 它 非常 适合 用 于 存储 临时 数据 的 临时 表 ， 以 及 
数据 仓库 中 的 纬度 表 。 它 默认 使 用 哈 希 索引 ， 而 不 是 我 们 熟悉 的 B+ 树 索 引 。 

虽然 Memory 存 储 引 区 速度 非常 快 ， 但 在 使 用 上 还 是 有 一 定 的 限制 。 比 如 ， 其 只 支持 
表 锁 ， 并 发 性 能 较 差 ， 并 且 不 支持 TEXT 和 BLOB 列 类 型 。 最 重要 的 是 ， 存 储 变 长 字段 
(varchar) 时 是 按照 定常 字段 (char) 的 方式 进行 的 ， 因 此 会 浪费 内 存 (这 个 问题 之 前 已 
经 提 到 ，eBay 的 Igor Chernyshev 工 程 师 已 经 给 出 了 Patch 方 案 )。 

此 外 有 一 点 常 被 忽视 的 是 ，MySQL 数 据 库 使 用 Memory 存 储 引擎 作为 临时 表 来 存放 查 
询 的 中 间 结 果 集 (intermediate result), 。 如 果 中 间 结 果 集 大 于 Memory 存 储 引 擎 表 的 容量 设 
置 ， 又 或 者 中 间 结 果 含 有 TEXT 或 BLOB 列 类 型 字段 ， 则 MySQL 数 据 库 会 把 其 转换 到 
MyISAM 存 储 引擎 表 而 存放 到 磁盘 。 之 前 提 到 MyISAM 不 缓存 数据 文件 ， 因 此 这 时 产生 的 
临时 表 的 性 能 对 于 查询 会 有 损失 。 
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Archive 存 储 引擎 只 支持 INSERT 和 SELECT 操作 ，MySQL 5.1 开 始 支持 索引 。 其 使 用 
zlib 算 法 将 数据 行 (row) 进行 压缩 后 存储 ， 压 缩 比率 一 般 可 达 1 : 10。 正 如 其 名 称 所 示 ， 
Archive 存 储 引擎 非常 适合 存储 归档 数据 ， 如 日 志 信息 。Archive 存 储 引擎 使 用 行 锁 来 实现 
高 并 发 的 插入 操作 ， 但 是 本 身 并 不 是 事物 安全 的 存储 引擎 ， 其 设计 目标 主要 是 提供 高 速 的 
插入 和 压缩 功能 。 | 


1.3.6 Federated 存 储 引 擎 


Federated 存 储 引 警 表 并 不 存放 数据 , 它 只 是 指向 一 台 远 程 MySQL 数 据 库 服务 器 上 的 表 。 
这 非常 类 似 于 SQL Server 的 链接 服务 器 和 Oracle 的 透明 网 关 ， 不 同 的 是 ， 当 前 Federated 存 
储 引 擎 只 支持 MYSQL 数据 库 表 ， 不 支持 异 构 数 据 库 表 。 


1.3.7 Maria 存储 引擎 


Maria 存 储 引 擎 是 新 开发 的 引擎 ， 设 计 目 标 主 要 是 用 来 取代 原 有 的 MyISAM 存 储 引擎 ， 
从 而 成 为 MySQL 的 默认 存储 引擎 ， 开 发 者 是 MySQL 的 创始 人 之 一 的 Michael Widenius, 
因此 ， 它 可 以 看 作 是 MyISAM 的 后 续 版 本 。 其 特点 是 : 缓存 数据 和 索引 文件 ， 行 锁 设计 ， 
提供 MVCC 功 能 ， 支 持 事务 和 非 事 务 安全 的 选项 支持 ， 以 及 更 好 的 BLOB 字 符 类 型 的 处 理 
性 能 。 


1.3.8 其 他 存储 引擎 


除了 上 面 提 到 的 7 种 存储 引擎 外 ， 还 有 很 多 其 他 的 存储 引擎 ， 包 括 Merge、CSYV、 
Sphinx 和 Infobright， 它 们 都 有 各 自 适 用 的 场合 ， 这 里 不 再 一 一 做 介绍 了 。 了 解 了 MySQL 
拥有 这 么 多 存储 引擎 后 ， 现 在 我 可 以 回答 1.2 节 中 提 到 的 问题 了 。 
口 为 什么 MySQL 不 支持 全 文 索 引 ? 不 ! MySQL 支 持 ，MyISAM、Sphinx 存 储 引擎 支 
持 全 文 索引 。 
Q MySQL 快 是 因为 不 支持 事务 吗 ? 错 ! MySQL MyISAM 存 储 引 擎 不 支持 事务 ， 但 是 
InnoDB 支 持 。 快 是 相对 于 不 同 应 用 来 说 的 ， 对 于 ETL 这 种 操作 ，MyISAM 当 然 有 其 
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优势 。 

O 当 表 的 数据 量 大 于 1 000Ww 时 ，MySQL 的 性 能 会 急剧 下 降 吗 ? 不 ! MySQL 是 数据 库 ， 
不 是 文件 ， 随 着 数据 行 数 的 增加 ， 性 能 当然 会 有 所 下 降 ， 但 是 这 些 下 降 不 是 线性 的 ， 
如 果 你 选择 了 正确 的 存储 引擎 以 及 正确 的 配置 ， 再 大 的 数据 量 MySQL 也 是 能 承受 
的 。 如 官方 手册 上 提 及 的 ，Mytrix 和 Inc. 在 InnoDB 上 存储 了 超过 1TB 的 数据 ， 还 有 
一 些 其 他 网 站 使 用 InnoDB 存 储 引擎 处 理 平均 每 秒 800 次 插 人 /更 新 的 操作 。 


1.4 各 种 存储 引擎 之 问 的 比较 


通过 1.3 节 的 介绍 ， 我 们 了 解 了 存储 引擎 是 MySQL 体 系 结构 的 核心 。 本 节 我 们 将 通过 
简单 比较 几 个 存储 引擎 来 让 读者 更 直观 地 理解 存储 引擎 的 概念 。 图 1-2 取 自 于 MySQL 的 官 
方 手册 ， 展 现 了 一 些 常 用 MySQL 存 储 引擎 之 间 的 不 同 之 处 ， 包 括 存储 容量 的 限制 、 事 务 支 
持 、 锁 的 粒度 、MVCC 支 持 、 支 持 的 索引 、 备 份 和 复制 等 。 
MyISAM BDB Im 


Feature Archive NDB 









Memory 








[Transactions (commi eli | — [€ | | e | | | 
| Locking granularity | Table | Page | Table | Row | Row | Row] 
[MVCC/SnapshotRead | | 1 v [| € |> 
[Geospatial suppont T_T _L_T__ L- 1 
[Bheidms | w dP | v |-v- L lv 
[Hashindexes T_T | v | v | [e 
emer | € | | 

[Cuwmdimek | | rr > 
Daces | — —[ Te e T_T 
[Index Cas | ww vv | [7 
(Compressa — — — | w | | LET 


[Encrypted data (viafineion) | v |v | v | v |v LY 


aa SS aes eee eee I 









(Query caches € vl v ww |v 
[Update Statistics for Data Dictionary | v | v | v | v |» l1 v1 


图 1-2 不 同 MySQL 存 储 引 擎 相关 特性 的 比较 






可 以 看 到 ， 每 种 存储 引擎 的 实现 都 不 相同 。 有 些 竟然 不 支持 事务 ， 我 相信 在 任何 一 本 
关于 数据 库 原 理 的 书 中 ， 都 可 能 会 提 到 数据 库 与 传统 文件 系统 的 最 大 区 别 在 于 数据 库 是 支 
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持 事 务 的 。 而 MySQL 的 设计 者 在 开发 时 却 认为 不 是 所 有 的 应 用 都 需要 事务 ， 所 以 存在 不 支 
持 事务 的 存储 引擎 。 更 有 不 明 其 理 的 人 把 MySQL 称 作文 件 系 统 数 据 库 ， 其 实 不 然 ， 只 是 
MySQL 的 设计 思想 和 存储 引擎 的 关系 可 能 让 人 产生 了 理解 上 的 偏差 。 

可 以 通过 SHOW ENGINES 语 名 查看 当前 使 用 的 MySQL 数 据 库 所 支持 的 存储 引擎 ， 也 
可 以 通过 查找 information_schema 架 构 下 的 ENGINES 表 来 查看 ， 如 下 所 示 : 


mysql» show engines\G; 


c ce ce e cec ce che dece eee ke eoe ehe che ce e ce ce ex Li 1. LOW *X*XXXKXKXKXKXXKXKKXKKXKKXXKKXKKxrxk xXx 


Engine: 
Support: 
Comment: 

Transactions: 
XA: 


Savepoints: 


InnoDB 

YES 

Supports transactions, row-level locking, and foreign keys 
YES 

YES 

YES 


kkkkkkkkkkkkkkkkkkkkkkkkkk* 2. LOW ***xkxk ck kk k kkk ko k ko k kk kk kkkkkk 


Engine: 
Support: 
Comment: 

Transactions: 
XA: 


Savepoints: 


MRG MYISAM 

YES 

Collection of identical MyISAM tables 
NO 

NO 

NO 


LEEXEXXEERRRSEREREREEREEEEREEEREI 3. LOW 太太 太太 太太 太太 太太 太太 太太 太太 太太 太太 太太 太太 太太 大 


Engine: 
Support: 
Comment: 

Transactions: 
XA: 


Savepoints: 


BLACKHOLE 

YES 

/dev/null storage engine (anything you write to it disappears) 
NO 

NO 

NO 


KEKKEKEKEKEEKEKEKEKEEKEKEEKKEKEKEKEEKE 4. LOW ***XXXXXXXXXXXXXXXX1XXXXXxXXx 


Engine: 
Support: 
Comment: 

Transactions: 
XA: 


Savepoints: 


CSV 
YES 
CSV storage engine 
NO 
NO 
NO 


LÉEASERESRERRERERREREREEZESEERREEEI 5. LOW **k*XkkkkkxkkkÀkkkk*kkkkkkkkkkkXxkk 


Engine: 
Support: 
Comment: 

Transactions: 
XA: 


Savepoints: 


MEMORY 

YES 

Hash based, stored in memory, useful for temporary tables 
NO 

NO 

NO 
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* 
* 


kkkkkkkkkkkkkkkkkkkkkkkkkk* 6. row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
Engine: FEDERATED 
Support: NO 
Comment: Federated MySQL storage engine 
Transactions: NULL 
XA: NULL 
Savepoints: NULL 
LESEREKEEEKREEREEEZEERRSEREEREEELI Fa COW kk kk kk kk kckckckckckckck kc KK c kokckokokok ok 
Engine: ARCHIVE 
Support: YES 
Comment: Archive storage engine 
Transactions: NO 
XA: NO 
Savepoints: NO 
LAERLAZZEZZEZZEZZEZEZELE ko kk k kk kk B, row IZEZZEEKERZRZEERSEEREEREREREREREERI 
Engine: MyISAM 
Support: DEFAULT 
Comment: Default engine as of MySQL 3.23 with great performance 
Transactions: NO 
XA: NO 
Savepoints: NO 


8 rows in set (0.00 sec) 


下 面 我 将 通过 MySQL 提 供 的 示例 数据 库 来 简单 显示 各 种 存储 引擎 之 间 的 区 别 。 我 们 将 
分 别 运行 以 下 语句 ， 然 后 统计 每 次 使 用 各 种 存储 引擎 后 表 的 大 小 。 


mysql» create table mytest engine=myisam as select * from salaries; 
Query OK, 2844047 rows affected (4.37 sec) 
Records: 2844047 Duplicates: 0 Warnings: 0 


mysql> alter table mytest engine=innodb; 
Query OK, 2844047 rows affected (15.86 sec) 
Records: 2844047 Duplicates: 0 Warnings: 0 


mysql» alter table mytest engine=ARCHIVE; 
. Query OK, 2844047 rows affected (16.03 sec) 
Records: 2844047 Duplicates: 0 Warnings: 0 


通过 每 次 的 统计 我 们 发 现 , 当 最 初 的 表 使 用 MyISAM 存 储 引擎 时 ， 表 的 大 小 为 40.7MB，， 
使 用 InnoDB 存 储 引擎 时 表 增 大 到 了 113.6MB ， 而 使 用 Archive 存 储 引擎 时 表 的 大 小 却 只 有 
20.2MB 。 该 示例 只 从 表 的 大 小 方面 简单 地 揭示 了 各 存储 引擎 的 不 同 。 
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注意 : MySQL 提 供 了 一 个 非常 好 的 用 来 演示 MySQL 各 项 功能 的 示例 数据 库 ， 如 
SQL Server 提 供 的 AdventureWorks 示 例 数据 库 和 Oracle 提 供 的 示例 数据 库 。 就 我 所 
知 ， 知 道 MySQL 示 例 数据 库 的 人 很 少 ， 可 能 是 因为 这 个 示例 数据 库 没 有 在 安装 的 
时 候 提示 用 户 是 否 安装 (如 Oracle 和 SQL Server) ， 以 及 这 个 示例 数据 库 的 下 载 竟 
然 和 文档 放 在 一 起 。 可 以 通过 以 下 链接 找到 示例 数据 库 的 下 载 地 址 : http://dev. 


mysql.com/doc/, 


1.5 连接 MySQL 


本 节 将 介绍 连接 MySQL 数 据 库 的 常用 方式 。 需 要 理解 的 是 ， 连 接 MySQL 操 作 是 连 
接 进 程 和 MySQL 数 据 库 实例 进行 通信 。 从 开发 的 角度 来 说 ， 本 质 上 是 进程 通信 。 如 果 对 
进程 通信 比较 了 解 ， 应 该 知道 常用 的 进程 通信 方式 有 管道 、 命 名 管道 、 命 名 字 、TCP/IP 
套 接 字 、Unix 域 名 套 接 字 。MySQL 提 供 的 连接 方式 从 本 质 上 看 都 是 上 述 提 及 的 进程 通 
信 方 式 。 
1.5.1 TCP/IP 


TCP/IP 套 接 字 方 式 是 MySQL 在 任何 平台 下 都 提供 的 连接 方式 ， 也 是 网 络 中 使 用 得 最 
多 的 一 种 方式 。 这 种 方式 在 TCP/IP 连 接 上 建立 一 个 基于 网 络 的 连接 请 求 ， 一 般 情况 下 客 
户 端 在 一 台 服 务 器 上 ， 而 MySQL 实 例 在 另 一 台 服 务 器 上 ， 这 两 台 机 器 通过 一 个 TCP/IP 网 
络 连接 。 例 如 ， 我 可 以 在 Windows 服 务 器 下 请 求 一 台 远 程 Linux 服 务 器 下 的 MySQL 实 例 ， 
如 下 所 示 。 


C:\>mysql -h192.168.0.101 -u david -p 

Enter password: 

Welcome to the MySQL monitor. Commands end with ; or Mg. 
Your MySQL connection id is 18358 

Server version: 5.0.77-log MySQL Community Server (GPL) 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 
mysql> 
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这 里 的 客户 端 是 Windows， 它 向 一 台 Host IP4j192.168.0.101 MySQL fil & x T TCP/IP 
连接 请 求 ， 并 且 连 接 成 功 。 之 后 ， 就 可 以 对 MySQL 数 据 库 进行 一 些 数据 库 操 作 ， 如 DDL 和 
DML 等 。 

这 里 需要 注意 的 是 ， 在 通过 TCP/IP 连 接 到 MySQL 实 例 时 ，MySQL 会 先 检查 一 张 权限 
视图 ， 用 来 判断 发 起 请 求 的 客户 端 IP 是 否 允许 连接 到 MySQL 实 例 。 该 视图 在 mysql 库 下 ， 
表 名 为 user， 如 下 所 示 。 


mysql» use mysql; 

Database changed 

mysql» select host,user,password from user; 

e ke ce cde e eoe oe ce che che ee he e ede e LE ck eek kx kx x la row LEiEZERSESSERSZZZEEREEKEEZEEZSSEEREREEJ 
host: 192.168.24.$ 

user: root 

password: *75DBD4FA548120B54FE693006C41AA9A16DE8FBE 
kkkkkkkkkkkkkkkkkkkkkkkkkkkkk 2. row kkkkkkkkkkkkkkkkkkkkkkkkkkk kk 
host: nineyou0-43 

user: root 

password: *75DBD4FA548120B54FE693006C41AA9A16DE8FBE 
kkkkkkkkkkkkkkkkkkkkžkkkkkk*kk K row ce e ce e ce eee cede ce eee de de cce cce e e e e v kv kv AX 
host: 127.0.0.1 

user: root 

password: *75DBD4FA548120B54FE693006C41AA9A16DE8FBE 
KAKFKAKKKAKKKKKKKKKKKkKrKxxKkKrkkrkkrkkKkak 4. row IIITIITIIITIIETPEIPETITPEIIIITITIII 
host: 192.168.0.100 

user: zlm 

password: *DAE0939275CC7CD8E0293812A31735DA9CF0953C 

3k ck ee ce e oce eee ecce ce cede dece ce e eoe e € € kx x x 5. row LidédddZddXddZd£ZddZZdZiEAXXddkl 
host: $ 

user: david 

password: 


5 rows in set (0.00 sec) 


从 这 张 权 限 表 中 可 以 看 到 ，MySQL 人 允许 david 这 个 用 户 在 任何 了 了 段 下 连接 该 实例 ， 并 
且 不 需要 密码 。 此 外 ， 还 给 出 了 root 用 户 在 各 个 网 段 下 的 访问 控制 权限 。 


1.5.2 命名 管道 和 共享 内 存 


在 Windows 2000、Windows XP、Windows 2003 和 Windows Vista 以 及 在 此 之 后 的 
Windows 操 作 系统 中 ， 如 果 两 个 需要 通信 的 进程 在 同一 台 服 务 器 上 ， 那 么 可 以 使 用 命名 管 
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ii, SQL Server 数 据 库 默认 安装 后 的 本 地 连接 也 使 用 命名 管道 。 在 MySQL 数 据 库 中 ， 需 在 
配置 文件 中 启用 --enable-named-pipe 选 项 。 在 MySQL 4.1 之 后 的 版 本 中 ，MySQL 还 提供 了 
共享 内 存 的 连接 方式 ， 在 配置 文件 中 添加 --shared-memory。 如 果 想 使 用 共享 内 存 的 方式 ， 
在 连接 时 ，Mysql 客 户 端 还 必须 使 用 -protocol=memory 选 项 。 


1.5.3 Unix 域 套 接 字 


在 Linux 和 Unix 环 境 下 ， 还 可 以 使 用 Unix 域 套 接 字 。Unix 域 套 接 字 其 实 不 是 一 个 网 络 
协议 ， 所 以 只 能 在 MySQL 客 户 端 和 数据 库 实 例 在 同一 台 服 务 器 上 的 情况 下 使 用 。 你 可 以 在 
配置 文件 中 指定 套 接 字 文 件 的 路 径 ， 如 -socket=/tmp/mysql.sock。 当 数据 库 实例 启动 后 ， 
我 们 可 以 通过 下 列 命 令 来 进行 Unix 域 套 接 字 文件 的 查找 ， 


mysql> show variables like 'socket'; 


kkkkkkkkkkkkkkkkkkkkkkkkkkk lI LOW XKKKKKKKKKKKKKKKKKKKKKKKKKK 
Variable name: socket 
Value: /tmp/mysql.sock 


1 row in set (0.00 sec) 


知道 了 Unix 套 接 字 文件 的 路 径 后 ， 就 可 以 使 用 该 方式 进行 连接 了 ， 如 下 所 示 : 
[root@stargazer -]£ mysql -udavid -S /tmp/mysql.sock 

Welcome to the MySQL monitor. Commands end with ; or \g. 

Your MySQL connection id is 20333 


Server version: 5.0.77-log MySQL Community Server (GPL) 
Type 'help;' or '\h' for help. Type '\c' to clear the buffer. 


mysql> 


1.6 小 结 


本 章 首先 介绍 了 数据 库 和 数据 库 实例 的 定义 ， 紧 接着 分 析 了 MySQL 的 体系 结构 ， 从 而 
进一步 突出 强调 了 “实例 ”和 “数据 库 ” 的 区 别 。 我 相信 ， 不 管 是 MySQL DBA 还 是 
MySQL 的 开发 人 员 ， 都 应 该 已 经 从 宏观 上 了 解 了 MySQL 的 体系 结构 ， 特 别 是 MySQL 独 有 
的 插件 式 存储 引擎 的 概念 。 因 为 很 多 MySQL 用 户 很 少 意识 到 这 一 点 ， 从 而 给 他 们 的 管理 、 
使 用 和 开发 带 来 了 困扰 。 
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本 章 还 详细 讲解 了 各 种 常见 的 表 存 储 引 擎 的 特性 、 适 用 情况 以 及 它们 之 间 的 区 别 ， 以 
便于 大 家 在 选择 存储 引擎 时 作为 参考 。 最 后 强调 一 点 ， 虽 然 MySQL 有 许多 存储 引擎 ， 但 是 
它们 之 间 不 存在 优 劣 性 的 差异 ， 我 们 应 根据 不 同 的 应 用 选择 适合 自己 的 存储 引擎。 当然 ， 
如 果 你 能 力 很 强 ， 完 全 可 以 修改 存储 引擎 的 源 代 码 ， 甚 至 是 创建 自己 需要 的 特定 的 存储 引 
擎 ， 这 不 就 是 开源 的 魅力 吗 ? 
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第 2 章 InnoDB 存 储 引 擎 


InnoDB 是 事务 安全 的 MySQL 存 储 引 苟 , 设计 上 采用 了 类 似 于 Oracle 的 架构 。 一 般 而 言 ， 
在 OLTP 的 应 用 中 ，InnoDB 应 该 作为 核心 应 用 表 的 首选 存储 引擎 。 同 时 ， 也 是 因为 InnoDB 
的 存在 ， 才 使 得 MySQL 变 得 更 有 魅力 。 本 章 将 详细 介绍 InnoDB 存 储 引 警 的 体系 架构 及 其 
不 同 于 其 他 数据 库 的 特性 。 


2.1 InnoDB 存 储 引擎 概述 


InnoDB 由 Innobase Oy 公司 开发， 被 包括 在 MySQL 所 有 的 二 进 制 发 行 版 本 中 ， 是 
Windows 下 上 默认 的 表 存 储 引 擎 。 该 存储 引擎 是 第 一 个 完整 支持 ACID 事 务 的 MySQL 存 储 引 
% (BDB 是 第 一 个 支持 事务 的 MySQL 存 储 引 擎 ， 现 在 已 经 停止 开发 ) ， 行 锁 设 计 ， 支 持 
MVCC， 提 供 类 似 于 Oracle 风 格 的 一 致 性 非 锁定 读 ， 支 持 外 键 ， 被 设计 用 来 最 有 效 地 利用 
内 存 和 CPU。 如 果 你 熟悉 Oracle 的 架构 ， 你 会 发 现 InnoDB 与 Oracle 很 类 似 ， 也 许 这 也 是 为 
什么 Oracle 要 急于 在 MySQL AB 之 前 收购 该 公司 的 原因 。 

Heikki Tuuri (1964 年 出 生 于 芬兰 赫尔辛基 ) 是 InnoDB 存 储 引 擎 的 创始 人 ， 与 著名 的 
Linux 创 始 人 Linus 同 是 芬兰 赫尔辛基 大 学 校友 。 在 1990 年 完成 赫尔辛基 大 学 的 数学 逻辑 博 
士 学 位 后 ， 他 于 1995 年 成 立 Innobase Oy 公司 并 担任 CEO。 同 时 ， 我 欣喜 地 注意 到 ， 在 
InnoDB 存 储 引 擎 的 开发 团队 中 ， 有 来 自 中 国 科技 大 学 的 Calvin Sun, 

InnoDB 存 储 引 擎 已 经 被 许多 大 型 网 站 使 用 ， 例 如 我 们 熟知 的 Yahoo、Facebook、 
youtube、Flickr， 在 网 络 游戏 领域 有 Wow、SecondLife、 神 兵 辫 奇 等 。 淘 宝 网 正在 有 计划 
地 将 一 部 分 核心 应 用 由 Oracle 转 到 MySQL， 目 前 他 们 的 存储 引擎 选择 是 InnoDB。 我 不 是 
MySQL 的 布道 者 ， 也 不 是 InnoDB 的 鼓吹 者 ， 但 是 我 认为 ， 如 果实 施 一 个 新 的 OLTP 项 目 不 


日 该 公司 2006 年 已 经 被 Oracle 公 司 收购 。 
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从 MySQL 的 官方 手册 还 能 得 知 ， 著 名 的 Internet 新 闻 站 点 Slashdot.org 运 行 在 InnoDB 上 。 
Mytrix, Inc. 在 InnoDB 上 存储 超过 1TB 的 数据 ， 还 有 一 些 其 他 站 点 在 InnoDB 上 处 理 平均 每 
秒 800 次 插入 /更 新 的 操作 。 这 些 都 证 明了 InnoDB 是 一 个 高 性 能 、 高 可 用 、 高 可 扩展 的 存储 
引擎 。 

InnoDB 和 MySQL 一 样 ， 在 GNU GPL 2 下 发 行 。 有 关 更 多 MySQL 证 书 的 信息 ， 可 参考 
http://www.mysql.com/company/legallicensing/， 这 里 不 再 做 过 多 介绍 。 


2.2 InnoDB 体 系 架 构 


通过 第 1 章 我 们 了 解 了 MySQL 的 体系 结构 ， 现 在 可 能 你 想 更 深入 地 了 解 InnoDB 的 架构 
模型 。 图 2-1 简 单 显示 了 InnoDB 的 存储 引擎 的 体系 架构 。InnoDB 有 多 个 内 存 块 ， 你 可 以 认 
为 这 些 内 存 块 组 成 了 一 个 大 的 内 存 池 ， 负 责 如 下 工作 : 
Q 维护 所 有 进程 /线程 需要 访问 的 多 个 内 部 数据 结构 。 
口 缓存 磁盘 上 的 数据 ， 方 便 快 速 地 读 取 ， 并 且 在 对 磁盘 文件 的 数据 进行 修改 之 前 在 这 
里 缓存 。 
Q Xf Hz (redo log) 缓冲 。 
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图 2-1 InnoDB 体 系 结构 
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后 台 线 程 的 主要 作用 是 负责 刷新 内 存 池 中 的 数据 ， 保 证 缓冲 池 中 的 内 存 缓存 的 是 最 近 
的 数据 。 此 外 ， 将 已 修改 的 数据 文件 刷新 到 磁盘 文件 ， 同 时 保证 在 数据 库 发 生 异 常情 况 下 
InnoDB 能 恢复 到 正常 运行 状态 。 


2.2.4 后 台 线程 


由 于 Oracle 是 多 进程 的 架构 (Windows 下 除外 ) ， 因 此 可 以 通过 一 些 很 简单 的 命令 来 得 
知 Oracle 当 前 运行 的 后 台 进 程 ， 如 ipcs 命 令 。 一 般 来 说 ，Oracle 的 核心 后 台 进 程 有 CKPT、 
DBWn、LGWR、ARCn、PMON、SMON 等 。 

很 多 DBA 问 我 , mnoDB 存 储 引擎 是 否 也 是 这 样 的 架构 , 只 不 过 是 多 线程 版 本 的 实现 后 ， 
我 决定 去 看 InnoDB 的 源 代码 ， 发 现 InnoDB 并 不 是 这 样 对 数据 库 进 程 进行 操作 的 。InnoDB 
存储 引擎 是 在 一 个 被 称 做 master thread 的 线程 上 几乎 实现 了 所 有 的 功能 。 

默认 情况 下 ，InnoDB 存 储 引擎 的 后 台 线程 有 7 个 一 一 4 个 IO thread, 1/\master thread, 
1 个 锁 (lock) 监控 线程 ，1 个 错误 监控 线程 。IO thread 的 数量 由 配置 文件 中 的 innodb_file_ 
io_threads 参 数控 制 ， 软 认为 4， 如 下 所 示 。 


mysql> show engine innodb status\G; 
kkkkkkkkkkkkkkkkkkkkkkkkk*kkk 1 。 COW **kkkk kk kk kk k ke k ke k kk ke kekekekbk kk 
Type: InnoDB 


Name: 


I/O thread 0 state: waiting for i/o request (insert buffer thread) 
I/O thread 1 state: waiting for i/o request (log thread) 
I/O thread 2 state: waiting for i/o request (read thread) 
I/O thread 3 state: waiting for i/o request (write thread) 
Pending normal aio reads: 0, aio writes: O0, 
ibuf aio reads: 0, log i/o's: 0, sync i/o's: 0 
Pending flushes (fsync) log: 0; buffer pool: 0 
45 OS file reads, 562 OS file writes, 412 OS fsyncs 
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X 
No 
Ke 


0.00 reads/s, 0 avg bytes/read, 0.00 writes/s, 0.00 fsyncs/s 


1 row in set (0.00 sec) 


可 以 看 到 ，4 个 IO 线程 分 别 是 insert buffer thread, log thread, read thread, write thread, 
在 Linux 平 台 下 ，IO thread 的 数量 不 能 进行 调整 ， 但 是 在 Windows 平 台 下 可 以 通过 参数 
innodb_file_io_threads 来 增 大 IO thread, InnoDB Plugin 版 本 开始 增加 了 默认 IO thread 的 数 
量 ， 默 认 的 read thread 和 write thread 分 别 增 大 到 了 4 个 ， 并 且 不 再 使 用 innodb_file_ 
io_threads 参 数 ， 而 是 分 别 使 用 innodb_read_io_threads 和 innodb_write_io_threads 参 数 ， 如 


下 所 示 。 
mysql» show variables like 'innodb_version'\G; 
CAZZAAZAZAZAZAZAZZZEZEZZAREREA Li T. row e ce e ce che e k che e k k e ke ce de ke kk ko ko kk ok kk Li 
.Variable name: innodb version 
Value: 1.0.6 


1 row in set (0.00 sec) 


mysql» show variables like ‘innodb_%io_threads'\G; 
CERZAEZZAZZAZZZAZZZZZALE ZE Li Li La row TER EE PRE REE REE RARER k k k k ZLI 
Variable name: innodb read io threads 

Value: 4 
kkkkkkkkkkkkkkkkkkkkkkkkkkk 25 row LiZZXiZZiZ£kXiZXiZXkkEkEddXi 
Variable name: innodb write io threads 

Value: 4 


2 rows in set (0.00 sec) 


mysql> show engine innodb status\G; 
kkkkkkkkkkkkkkkěkkkkkkkkkk*kk 1. row scc ce ce ee ce ecce ce ce ce ce cede e ec e e e kv € x x 
Type: InnoDB 
Name: 
Status: 


000000 
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FILE I/O 

I/O thread 
I/O thread 
I/O thread 
I/O thread 


state: waiting for i/o request (insert buffer thread) 
state: waiting for i/o request (log thread) 
state: waiting for i/o request (read thread) 


state: waiting for i/o request (read thread) 


I/O thread 
I/O thread 
I/O thread 
I/O thread 


0 
1 
2 
3 
I/O thread 4 state: waiting for i/o request (read thread) 
5 state: waiting for i/o request (read thread) 
6 state: waiting for i/o request (write thread) 
7 state: waiting for i/o request (write thread) 
8 state: waiting for i/o request (write thread) 
I/O thread 9 state: waiting for i/o request (write thread) 
Pending normal aio reads: 0, aio writes: 0, 
ibuf aio reads: 0, log i/o's: 0, sync i/o's: 0 
Pending flushes (fsync) log: 0; buffer pool: 0 
3229856 OS file reads, 7830947. OS file writes, 1601902 OS fsyncs 
reads/s, 0 avg bytes/read, 0.00 writes/s, 0.00 fsyncs/s 


n 


1 row in set (0.01 sec) 


在 Windows 下 ， 我 们 还 可 以 通过 Visual Studio 来 调试 MySQL ， 并 设置 断 点 来 观察 所 有 
的 线程 信息 ， 如 图 2-2 所 示 。 
































0 

正常 0 

1828 os event wait multiple 最 高 0 
1344 os event wait multiple Bm 0 

w o> 1204 os event wait, multiple 最 高 0 
- 2856 os. event, wait, multiple 最 高 0 
4948 os event, wait, multiple | 最 高 0 

全 ，1895 os event wait multple 最 高 0 
s 2824 os event wait midtiple ` RE "9 
Yo 5260 站 辅助 线程 。 io handler thread os event wait multiple ray 0 
1360 UJ 辅助 线程 。 io handler thread os event wait multiple 服 高 0 

C fÍf$ (o hander thread i o5 event, wait, multiple 最 高 0 

srv lock timeout and monitor thread 05 thread sleep 高 0 

srv error monitor thread os thread sleep 0 














图 2-2 Windows 下 InnoDB 存 储 引擎 的 线程 
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2.2. AF 


InnoDB 存 储 引擎 内 存 由 以 下 几 个 部 分 组 成 ; 缓冲 地 (buffer pool), 、 重 做 日 志 缓冲 池 
(redo log buffer) 以 及 额外 的 内 存 池 (additional memory pool) ， 分 别 由 配置 文件 中 的 参数 
innodb_buffer_pool_size 和 innodb_log_buffer_size 的 大 小 决定 。 以 下 显示 了 一 台 MySQL 数 
据 库 服务 器 ， 它 将 InnoDB 存 储 引擎 的 缓冲 地 、 重 做 日 志 缓冲 池 以 及 额外 的 内 存 池 分 别 设置 
为 2.5G、8M 和 8M (分 别 以 字 节 显示 )。 


mysql» show variables like 'innodb buffer pool size'\G; 


kak kkk kk kkk kkk KKK KKK KKK 1. TOW kk kk ckckckck ck ke ee ke e e e e e e e x x 


Variable name: innodb buffer pool size 
Value: 2621440000 


1 row in set (0.00 sec) 


mysql» show variables like 'innodb log buffer size'\G; 


ce ce eee eoe eoe ce ee ck e ek kk e ke ek ke kk ls LOW kk ck kk kckckck ckok o kckck ck ck kokok kokok kk 


Variable name: innodb log buffer size 
Value: 8388608 


1 row in set (0.00 sec) 


mysql> show variables like 'innodb additional mem pool size'\G; 


ke e e eee ceo ede e de ck oe eode ck e de ok e kx k l. LOW "xk ee koc ke e e e e e e e e e e e e KEK 


Variable name: innodb additional mem pool size 
Value: 8388608 


1 row in set (0.00 sec) 


缓冲 池 是 占 最 大 块 内 存 的 部 分 ， 用 来 存放 各 种 数据 的 缓 在 。 因 为 InnoDB 的 存储 引擎 的 
工作 方式 总 是 将 数据 库 文件 按 页 (每 页 16K) 读 取 到 缓冲 地， 然后 按 最 近 最 少 使 用 (LRU) 
的 算法 来 保留 在 缓冲 了 地 中 的 缓存 数据 。 如 果 数 据 库 文件 需要 修改 ， 总 是 首先 修改 在 缓存 地 
中 的 页 (发 生 修改 后 ， 该 页 即 为 脏 页 ) ， 然 后 再 按照 一 定 的 频率 将 缓冲 池 的 脏 页 刷新 
(flush) 到 文件 。 可 以 通过 命令 SHOW ENGINE INNODB STATUS 来 查看 innodb_buffer_ 
pool 的 具体 使 用 情况 ， 如 下 所 示 。 


mysql» show engine innodb status\G; 


kk ecc nece eee ke eee ecce eek ee kk kx k le COW FEKTKKTKKKKKKKKKKKKKKxKKxKXxXXKkxx 


Status: 


090921 10:55:03 INNODB MONITOR OUTPUT 
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s..... 


Buffer pool size 65536 
Free buffers 51225 
Database pages 12986 
Modified db pages 8 


在 BUFFER POOL AND MEMORY 里 可 以 看 到 InnoDB 存 储 引 擎 缓冲 池 的 使 用 情况 ， 
buffer pool size 表 明了 一 共有 多 少 个 缓 神 帧 (buffer frame) ， 每 个 buffer frame 为 16K， 所 以 
这 里 一 共 分 配 了 65536*16/1024=1G 内 存 的 缓冲 池 。Free buffers 表 示 当 前 空闲 的 缓冲 帧 ， 
Database pages 表 示 已 经 使 用 的 缓冲 帧 ，Modified db pages 表 示 脏 页 的 数量 。 就 当前 状态 看 
来 ， 这 台数 据 库 的 压力 并 不 大 ， 因 为 在 缓冲 池 中 有 大 量 的 空 闪 页 可 供 数据 库 进一步 使 用 。 


注意 : show engine innodb status 的 命令 显示 的 不 是 当前 的 状态 ,而 是 过 去 某 个 时 
间 范 围 内 InnoDB 存 储 引 擎 的 状态 ， 从 上 面 的 示例 中 我 们 可 以 看 到 ，Per second 
averages calculated from the last 24 seconds 表 示 的 信息 是 过 去 24 秒 内 的 数据 库 


具体 来 看 ,缓冲 池 中 缓存 的 数据 页 类 型 有 : 索引 页 、 数 据 页 、undo 页 、 插 入 缓冲 
(insert buffer) 、 自 适应 哈 希 索引 (adaptive hash index)、InnoDB 存 储 的 锁 信息 (lock info), 
数据 字典 信息 (data dictionary) 等 。 不 能 简单 地 认为 ,缓冲 池 只 是 缓存 索引 页 和 数据 页 ， 
它们 只 是 占 缓冲 池 很 大 的 一 部 分 而 已 。 图 2-3 很 好 地 显示 了 InnoDB 存 储 引 擎 中 内 存 的 结构 
情况 。 

参数 innodb_buffer_pool_size 指 定 了 缓冲 池 的 大 小 ， 在 32 位 Windows 系 统 下 ， 参 数 
innodb_buffer_pool_awe_mem_mb 还 可 以 启用 地 址 窗口 扩展 (AWE) 功能 ， 突 破 32 位 下 对 
于 内 存 使 用 的 限制 。 但 是 ， 在 使 用 这 个 参数 的 时 候 需要 注意 ,一 旦 启用 AWE 功 能 ， 
InnoDB 存 储 引 擎 将 自动 禁用 自 适应 哈 希 索引 (adaptive hash index) 的 功能 。 
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E 
N 
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日 志 缓 冲 缓冲 地 (innodb buffer pool) 
(log buffer) 
数据 页 插入 缓冲 锁 信 息 


(data page) (insert buffer) (lock info) 


额外 内 存 池 


(innode additional | 


自 适 应 哈 希 索引 数据 字典 信息 
索引 页 


mem pool size) (index page) 





图 2-3 InnoDB 存 储 引 擎 内 存 结构 


日 志 缓冲 e 将 重 做 日 志 信 息 先 放 入 这 个 缓冲 区 ， 然 后 按 一 定 频率 将 其 刷新 到 重 做 日 志 
文件 。 该 值 一 般 不 需要 设置 为 很 大 ， 因 为 一 般 情 况 下 每 一 秒 钟 就 会 将 重 做 日 志 缓冲 刷新 到 
日 志文 件 ， 因 此 我 们 只 需要 保证 每 秒 产生 的 事务 量 在 这 个 缓冲 大 小 之 内 即 可 。 

额外 的 内 存 池 通常 被 DBA 忽 略 ， 认 为 该 值 并 不 是 十 分 重要 ， 但 恰恰 相反 的 是 ， 该 值 其 
实 同样 十 分 重要 。 在 InnoDB 存 储 引 擎 中 ， 对 内 存 的 管理 是 通过 一 种 称 为 内 存 堆 (heap) 的 
方式 进行 的 。 在 对 一 些 数据 结构 本 身分 配 内 存 时 ， 需 要 从 额外 的 内 存 池 中 申请 ， 当 该 区 域 
的 内 存 不 够 时 ， 会 从 缓冲 池 中 申请 。InnoDB 实 例会 申请 缓冲 池 (innodb buffer pool) 的 
空间 ,但 是 每 个 缓冲 池 中 的 帧 缓冲 (frame buffer) 还 有 对 应 的 缓冲 控制 对 象 (buffer 
control block)， 而 且 这 些 对 象 记录 了 诸如 LRU、 锁 、 等 待 等 方面 的 信息 ， 而 这 个 对 象 的 内 
存 需要 从 额外 内 存 池 中 申请 。 因 此 ， 当 你 申请 了 很 大 的 InnoDB 缓 冲 池 时 ， 这 个 值 也 应 该 相 
应 增加 。 


2.3 master thread 


通过 对 前 一 小 节 的 学 习 我 们 已 经 知道 ，InnoDB 存 储 引 擎 的 主要 工作 都 是 在 一 个 单独 的 
后 台 线 程 master thread 中 完成 的 。 这 一 节 我 们 将 具体 解释 该 线程 的 具体 实现 以 及 该 线程 可 
能 存在 的 问题 。 


O 严格 地 说 ， 应 该 是 重 做 (redo) 日 志 缓冲 。 


www.TopSage.com 


InnoDB f ££ 2] *E | 25 


2.3.1 master thread 源 码 分 析 


master thread 的 线程 优先 级 别 最 高 。 其 内 部 由 几 个 循环 (loop) 组 成 : 主 循环 (loop)、 
后 台 循 环 (background loop )、 刷 新 循环 (flush loop)、 暂 停 循环 (suspend loop), master 
thread 会 根据 数据 库 运 行 的 状态 在 loop、background loop, flush loop 和 suspend loop 中 进行 
切换 。 

loop 称 为 主 循 环 ， 因 为 大 多 数 的 操作 都 在 这 个 循环 中 ， 其 中 有 两 大 部 分 操作 : 每 秒 钟 
的 操作 和 每 10 秒 的 操作 。 伪 代码 如 下 : 

void master thread()( 

loop: 

for(int i = 0; i < 10; i++){ 

do thing once per second 


Sleep 1 second if necessary 


) 

do things once per ten seconds 
goto loop; 

) 


可 以 看 到 ，loop 循 环 通过 thread sleep 来 实现 ， 这 意味 着 所 谓 的 每 秒 一 次 或 每 10 秒 一 次 
的 操作 是 不 精确 的 。 在 负载 很 大 的 情况 下 可 能 会 有 延迟 (delay) ， 只 能 说 大 概 在 这 个 频率 
下 。 当 然 ，InnoDB 源 代码 中 还 采用 了 其 他 的 方法 来 尽量 保证 这 个 频率 。 

每 秒 一 次 的 操作 包括 ; 

O 日 志 缓冲 刷新 到 磁盘 ， 即 使 这 个 事务 还 没有 提交 (总 是 ) 。 

口 合并 插入 缓冲 〈 可 能 ) 。 

O 至 多 刷新 100 个 InnoDB 的 缓冲 池 中 的 脏 页 到 磁盘 〈 可 能 ) 

口 如 果 当 前 没有 用 户 活动 ， 切 换 到 background loop (可 能 ) 

即使 某 个 事务 还 没有 提交 ，InnoDB 存 储 引擎 仍然 会 每 秒 将 重 做 日 志 缓 冲 中 的 内 容 刷 新 
到 重 做 日 志文 件 。 这 一 点 是 必须 知道 的 ， 这 可 以 很 好 地 解释 为 什么 再 大 的 事务 commit 的 时 
间 也 是 很 快 的 。 

合并 插入 缓冲 (insert buffer) 并 不 是 每 秒 都 发 生 。InnoDB 存 储 引擎 会 判断 当前 一 秒 内 
发 生 的 10 次 数 是 否 小 于 5 次 ， 如 果 小 于 5 次 ，InnoDB 认 为 当前 的 IO 压 力 很 小 ， 可 以 执行 合 
并 插入 缓冲 的 操作 。 


o 
o 
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同样 ， 刷 新 100 个 脏 页 也 不 是 每 秒 都 在 发 生 。InnoDB 存 储 引擎 通过 判断 当前 缓冲 池 中 
脏 页 的 比例 (buf get modified ratio pct) 是 否 超过 了 配置 文件 中 innodb_max_ 
dirty_pages_pct 这 个 参数 (默认 为 90， 代 表 90 色 ) ， 如 果 超 过 了 这 个 冰 值 ，InnoDB 存 储 引擎 
认为 需要 做 磁盘 同步 操作 ， 将 100 个 脏 页 写 入 磁盘 。 

总 结 上 述 3 个 操作 ， 伪 代码 可 以 进一步 具体 化 ， 如 下 所 示 : 


void master thread(){ 
goto loop; l 
loop: 
for(int i = 0; i«10; i++){ 
thread sleep(1) // sleep 1 second 
do log buffer flush to disk 
if (last one second ios « 5 ) 
do merge at most 5 insert buffer 
if ( buf get modified ratio pct » innodb max dirty pages pct ) 
do buffer pool flush 100 dirty page 
if ( no user activity ) 
goto backgroud loop 
} 
do things once per ten seconds 
background loop: 
do something 
goto loop: 
} 


接着 来 看 每 10 秒 的 操作 ， 包 括 如 下 内 容 : 
O 刷新 100 个 脏 页 到 磁盘 (IRE). 
O 合并 至 多 5 个 插入 缓冲 (总 是 )。 
口 将 日 志 缓 冲刷 新 到 磁盘 (总 是 )。 
口 删除 无 用 的 Undo 页 (总 是 ) 。 
Q 刷新 100 个 或 者 10 个 脏 页 到 磁盘 (总 是 )。 
口 产生 一 个 检查 点 (总 是 )。 | 

在 以 上 的 过 程 中 ，InnoDB 存 储 引擎 会 先 判断 过 去 10 秒 之 内 磁盘 的 IO 操作 是 否 小 于 200 
次 。 如 果 是 ，InnoDB 存 储 引擎 认为 当前 有 足够 的 磁盘 IO 操作 能 力 ， 因 此 将 100 个 脏 页 刷新 
到 磁盘 。 接 着 ，InnoDB 存 储 引擎 会 合并 插入 缓冲 。 不 同 于 每 1 秒 操作 时 可 能 发 生 的 合并 插 
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入 缓冲 操作 ， 这 次 的 合并 插入 缓冲 操作 总 会 在 这 个 阶段 进行 。 之 后 ，InnoDB 存 储 引 警 会 再 
执行 一 次 将 日 志 缓冲 刷新 到 磁盘 的 操作 ， 这 与 每 秒 发 生 的 操作 是 一 样 的 。 

接着 InnoDB 存 储 引 擎 会 执行 一 步 full purge 操 作 ， 即 删除 无 用 的 Undo 页 。 对 表 执 行 
update、delete 这 类 操作 时 ， 原 先 的 行 被 标记 为 删除 ， 但 是 因为 一 致 性 读 (consistent read) 
的 关系 ， 需 要 保留 这 些 行 版 本 的 信息 。 但 是 在 full purge 过 程 中 ，InnoDB 存 储 引擎 会 判断 当 
前 事务 系统 中 已 被 删除 的 行 是 否 可 以 删除 ， 比 如 有 时 候 可 能 还 有 查询 操作 需要 读 取 之 前 版 
本 的 Undo 信 息 ， 如 果 可 以 ，InnoDB 会 立即 将 其 删除。 从 源 代 码 中 可 以 发 现 ，InnoDB 存 储 
引擎 在 操作 full purge 时 ， 每 次 最 多 删除 20 个 Undo 页 。 

然后 ，InnoDB 存 储 引 擎 会 判断 缓冲 池 中 脏 页 的 比例 (buf get modified ratio pct), 4n 
果 有 超过 70% 的 脏 页 ， 则 刷新 100 个 脏 页 到 磁盘 ， 如 果 脏 页 的 比例 小 于 70%， 则 只 需 刷新 
10% 的 脏 页 到 磁盘 。 

最 后 ，InnoDB 存 储 引 擎 会 产生 一 个 检查 点 (checkpoint) ，InnoDB 存 储 引 擎 的 检查 点 
也 称 为 模糊 检查 点 (fuzzy checkpoint) 。InnoDB 存 储 引 擎 在 checkpoint 时 并 不 会 把 所 有 组 
冲 池 中 的 脏 页 都 写 和 磁盘， 因为 这 样 可 能 会 对 性 能 产生 影响 ， 而 只 是 将 最 老 日 志 序列 号 
(oldest LSN) 的 页 写 和 人 磁盘。 

现在 ， 我 们 可 以 完整 地 把 主 循环 (main loop) 的 伪 代 码 写 出 来 了 ， 内 容 如 下 ; 


void master thread()( 
goto loop; 
loop: 
for(int i = 0; i«10; it++){ 
thread sleep(1) // sleep 1 second 
do log buffer flush to disk 
if (last one second ios « 5 ) 
do merge at most 5 insert buffer 
if ( buf get modified ratio pct » innodb max dirty pages pct ) 
do buffer pool flush 100 dirty page 
if ( no user activity ) 
goto backgroud loop 
) 
if ( last ten second ios « 200 ) 
do buffer pool flush 100 dirty page 
do merge at most 5 insert buffer 
do log buffer flush to disk 
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do full purge 
if ( buf get modified ratio pct > 70$ ) 
do buffer pool flush 100 dirty page 
else 
buffer pool flush 10 dirty page 
do fuzzy checkpoint 
goto loop 
background loop: 
do something 
goto loop: 
} 


接着 来 看 background loop， 若 当前 没有 用 户 活动 (数据库 空闲 时 ) 或 者 数据 库 关 闭 时 ， 
就 会 切换 到 这 个 循环 。 这 个 循环 会 执行 以 下 操作 : 

DO 删除 无 用 的 Undo 页 (总 是 )。 

口 合并 20 个 插入 缓冲 (总 是 )。 

口 跳 回 到 主 循环 (总 是 )。 

O 不断 刷新 100 个 页 ， 直 到 符合 条 件 (可 能 ， 跳 转 到 flush loop 中 完成 ) 。 

如 果 flush loop 中 也 没有 什么 事情 可 以 做 了 ，InnoDB 存 储 引擎 会 切换 到 suspend_loop， 
将 master thread 挂 起 ， 等 待 事件 的 发 生 。 若 启用 了 InnoDB 存 储 引擎 ， 却 没有 使 用 任何 
InnoDB 存 储 引 警 的 表 ， 那 么 master thread 总 是 处 于 挂 起 状态 。 

最 后 ，master thread 完 整 的 伪 代 码 如 下 : 


void master thread(){ 
goto loop; 
loop: 
for(int i = 0; i<10; i++){ 
thread_sleep(1) // sleep 1 second 
do log buffer flush to disk 
if ( last_one_second_ios < 5 ) 
do merge at most 5 insert buffer 
if ( buf_get_modified_ratio_pct > innodb_max_dirty_pages_pct ) 
do buffer pool flush 100 dirty page 
if ( no user activity ) 
goto backgroud loop 
} 
if ( last_ten_second_ios < 200 ) 
do buffer pool flush 100 dirty page 
do merge at most 5 insert buffer 
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do log buffer flush to disk 

do full purge 

if ( buf get modified ratio pct > 70% ) 
do buffer pool flush 100 dirty page 

else 
buffer pool flush 10 dirty page 

do fuzzy checkpoint 

goto loop 

background loop: 

do full purge 

do merge 20 insert buffer 

if not idle: 

goto loop: 

else: 
goto flush loop 

flush loop: 

do buffer pool flush 100 dirty page 

if ( buf get modified ratio pct» innodb max dirty pages pct ) 
goto flush loop 

goto suspend loop 

suspend loop: 

suspend thread() 

waiting event 

goto loop; 

) 


从 InnoDB Plugin 开 始 ， 用 命令 SHOW ENGINE INNODB STATUS 可 以 查看 当前 master 
thread 的 状态 信息 ， 如 下 所 示 : 


mysql» show engine innodb status\G; 

deck ck ccce cec ccce eo ko ko ko kok ok ok ok Ta row cock ce ce ok ecce ce ck ce ce ck ke ck ko kc kokock kokok ok 
Type: InnoDB 
Name: 


Status: 


srv master thread loops: 45 1 second, 45 sleeps, 4 10 second, 6 background, 6 flush 
srv master thread log flush and writes: 45 log writes only: 69 


s.e... 
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这 里 可 以 看 到 主 循环 执行 了 45 次 ， 每 秒 sleep 的 操作 执行 了 45 次 (说 明 人 负载 不 是 很 大 )， 
10 秒 一 次 的 活动 执行 了 4 次 ,符合 1 : 10, background loop 执 行 了 6 次 ,flush loop 执 行 了 6 次 。 
因为 当前 这 台 服 务 器 的 压力 很 小 ， 所 以 能 在 理论 值 上 运行 。 但 是 ， 如 果 是 在 一 台 压 力 很 大 
的 MySQL 服 务 器 上 ， 我们 看 到 的 可 能 会 是 下 面 的 情景 : 


mysql» show engine innodb status\G; 


e ce ce ce ce cene cese ce ce ce ce ce ce ce ce ce ce ce e ek e ok ox l. LOW FTKKKKKKKKKKKKKKKKXKKKKKkK kk 
Type: InnoDB 
Name: 

Status: 


srv master thread loops: 2188 1l second, 1537 sleeps, 218 10 second, 2 
background, 2 flush 
Srv master thread log flush and writes: 1777 log writes only: 5816 


可 以 看 到 当前 主 循环 运行 了 2188 次 ,但 是 循环 中 的 每 一 秒 钟 SLEEP 的 操作 只 运行 了 
1537 次 。 这 是 因为 InnoDB 对 其 内 部 进行 了 一 些 优化 ， 当 压力 大 时 并 不 总 是 等 待 1 秒 。 所 以 
说 ， 我 们 并 不 能 认为 1_second 和 sleeps 的 值 总 是 相等 的 。 在 某 些 情况 下 ， 可 以 通过 两 者 之 
间 差 值 的 比较 来 反映 当前 数据 库 的 负载 压力 。 


2.3.2 master thread 的 潜在 问题 


在 了 解 了 master thread 的 具体 实现 过 程 后 ， 我 们 会 发 现 InnoDB 存 储 引擎 对 于 IO 其 实 是 
有 限制 的 ， 在 缓冲 池 向 磁盘 刷新 时 其 实 都 做 了 一 定 的 硬性 规定 (hard coding) 。 在 磁盘 技 
术 飞 速 发 展 的 今天 ， 当 固态 磁盘 出 现时 ， 这 种 规定 在 很 大 程度 上 限制 了 InnoDB 存 储 引 擎 对 
磁盘 IO 的 性 能 ， 尤 其 是 写 人 性 能 。 

从 前 面 的 伪 代 码 来 看 ， 无 论 何 时 ，InnoDB 存 储 引 擎 最 多 都 只 会 刷新 100 个 脏 页 到 磁盘 ， 
合并 20 个 插入 缓冲 。 如 果 是 在 密集 写 的 应 用 程序 中 ， 每 秒 中 可 能 会 产生 大 于 100 个 的 脏 页 ， 
或 是 产生 大 于 20 个 播 和 缓冲， 此 时 master thread 似 平 会 “ 忙 不 过 来 "， 或 者 说 它 总 是 做 得 很 
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慢 。 即使 磁盘 能 在 1 秒 内 处 理 多 于 100 个 页 的 写 入 和 20 个 插入 缓冲 的 合并 ， 由 于 hard coding， 
master thread 也 只 会 选择 刷新 100 个 胜 页 和 合并 20 个 插入 缓冲 。 同 时 ， 当 发 生 宕 机 需要 恢复 
时 ， 由 于 很 多 数据 还 没有 刷新 回 磁盘 ， 所 以 可 能 会 导致 恢复 需要 很 快 的 时 间 ， 尤 其 是 对 于 
insert buffer。 

这 个 问题 最 初 是 由 Google 的 工程 师 Mark Callaghan 提 出 的 ， 之 后 InnoDB 对 其 进行 了 修 
正 并 发 布 了 补丁 。InnoDB 存 储 引擎 的 开发 团队 参考 了 Google 的 patch， 提 供 了 类 似 的 方法 
来 修正 该 问题 。 因 此 InnoDB Plugin 开 始 提供 了 一 个 参数 ， 用 来 表示 磁盘 IO 的 吞吐 量 ， 参 数 
为 innodb_io_capacity ， 默 认 值 为 200。 对 于 刷新 到 磁盘 的 数量 ， 会 按照 innodb_io_capacity 
的 百分比 来 刷新 相对 数量 的 页 。 规 则 如 下 : 

O 在 合并 插入 缓冲 时 ， 合 并 插入 缓冲 的 数量 为 innodb_io_capacity 数 值 的 5%。 

口 在 从 缓冲 区 刷新 脏 页 时 ， 刷 新 脏 页 的 数量 为 iInnodb_io_capacity。 

如 果 你 使 用 了 SSD 类 的 磁盘 ， 或 者 将 儿 块 磁盘 做 了 RAID ， 当 你 的 存储 拥有 更 高 的 IO 
速度 时 ， 完 全 可 以 将 innodb_io_capacity 的 值 调 得 再 高 点 ， 直 到 符合 你 的 磁盘 IO 的 吞吐 量 
为 止 。 

另 一 个 问题 是 参数 innodb_max_dirty_pages_pct 的 默认 值 ， 在 MySQL 5.1 版 本 之 前 ( 包 
括 5.1) ， 该 值 的 默认 值 为 90 ， 意 味 着 脏 页 占 缓冲 池 的 90%。 但 是 该 值 “ 太 大 ”了 ， 因 为 你 
会 发 现 ，InnoDB 存 储 引 擎 在 每 1 秒 刷新 缓冲 池 和 fush loop 时 ， 会 判断 这 个 值 ， 如 果 大 于 
innodb_max_dirty_pages_pct， 才 刷新 100 个 脏 页 。 因 此 ， 如 果 你 有 很 大 的 内 存 或 你 的 数据 
库 服务 器 的 压力 很 大 ， 这 时 刷新 脏 页 的 速度 反而 可 能 会 降低 。 同 样 ， 在 数据 库 的 恢复 阶段 
可 能 需要 更 多 的 时 间 。 

在 很 多 论坛 上 都 有 对 这 个 问题 的 讨论 ， 有 人 甚至 将 这 个 值 调 到 了 20 或 10， 然 后 测试 发 
现 性 能 会 有 所 提高 ， 但 是 将 innodb_max_dirty_pages_pct 调 到 20 或 10 会 增加 磁盘 的 压力 ， 对 
系统 的 负担 还 是 会 有 所 增加 。Google 对 这 个 问题 进行 了 测试 ， 可 以 证 明 20 并 不 是 一 个 最 优 
值 9。 而 从 InnoDB Plugin 开 始 ，innodb_max_dirty_pages_pct 默 认 值 变 为 了 75， 和 Google 测 
试 的 80 比 较 接 近 。 这 样 既 可 以 加 快 刷新 脏 页 的 频率 ， 也 能 保证 磁盘 IO 的 负载 。 


O 有 兴趣 的 读者 请 参考 : http://code.google.com/p/google-mysq!-tools/wiki/InnodbloOltpDisk, 
www.TopSage.com 
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InnoDB Plugin 带 来 的 另 一 个 参数 是 innodb_adaptive_flushing ( 自 适应 地 刷新 ) ， 该 什 
影响 每 1 秒 刷新 脏 页 的 数量 。 原 来 的 刷新 规则 是 : 如 果 脏 页 在 缓冲 池 所 占 的 比例 小 于 
innodb max dirty pages pctlhl, AAIE. X-Finnodb max dirty pages pct], Filly 
100 个 脏 页 ， 而 innodb_adaptive_flushing 参 数 的 引入 ，InnoDB 存 储 引 擎 会 通过 一 个 名 为 
buf_flush_get_desired_flush_rate 的 函数 来 判断 需要 刷新 脏 页 最 合适 的 数量 。 粗 略 地 翻阅 源 
代码 后 你 会 发 现 ，buf_flush_get_desired_flush_rate 是 通过 判断 产生 重 做 日 志 的 速度 来 判断 
最 合适 的 刷新 及 页 的 数量 。 因 此 ， 当 脏 页 的 比例 小 于 innodb_max_dirty_pages_pct 时 ， 也 会 
刷新 一 定量 的 脏 页 。 

通过 上 述 的 讨论 和 解释 ， 从 InnoDB Plugin 开 始 ，master thread 的 伪 代 码 最 终 变 成 了 ， 


void master thread()( 
goto loop; 
loop: 
for(int i = 0; i«10; i++){ 
thread sleep(1) // sleep 1 second 
do log buffer flush to disk 
if ( last one second ios « 5$ innodb io capacity ) 
do merge 5$ innodb io capacity insert buffer 
if ( buf get modified ratio pct » innodb max dirty pages pct ) 
do buffer pool flush 100% innodb io capacity dirty page 
else if enable adaptive flush 
do buffer pool flush desired amount dirty page 
if ( no user activity ) 


goto backgroud loop 


if ( last ten second ios < innodb io capacity) 
do buffer pool flush 100$ innodb io capacity dirty page 
do merge at most 5$ innodb io capacity insert buffer 
do log buffer flush to disk 
do full purge 
if ( buf get modified ratio pct » 70$ ) 
do buffer pool flush 100$ innodb io capacity dirty page 
else 
do buffer pool flush 10$ innodb io capacity dirty page 
do fuzzy checkpoint 
goto loop 
background loop: 
do full purge 
do merge 100$ innodb io capacity insert buffer 
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if not idle: 
goto loop: 
else: 
goto flush loop 
flush loop: 
do buffer pool flush 100% innodb io capacity dirty page 
if ( buf get modified ratio pct» innodb max dirty pages pct ) 
go to flush loop 
goto suspend loop 
suspend loop: 
suspend thread() 
waiting event 
goto loop; 
) 


很 多 测试 都 显示 ，InnoDB Plugin 较 之 以 前 的 InnoDB 存 储 引 警 在 性 能 方面 有 了 极 大 的 
提高 ， 其 实 这 与 以 上 master thread 的 改动 是 密 不 可 分 的 ， 因 为 InnoDB 存 储 引擎 的 核心 操作 
大 部 分 都 是 在 master thread 中 。 


2.4 关键 特性 


InnoDB 存 储 引 擎 的 关键 特性 包括 插入 缓冲 、 两 次 写 (double write) 、 自 适应 哈 希 索 引 
(adaptive hash index) 。 这 些 特性 为 InnoDB 存 储 引 擎 带 来 了 更 好 的 性 能 和 更 高 的 可 靠 性 。 


2.4.1 插入 缓冲 


插入 缓冲 是 InnoDB 存 储 引擎 关键 特性 中 最 令 人 激动 的 。 不 过 ， 这 个 名 字 可 能 会 让 人 认 
为 插入 缓冲 是 缓冲 池 中 的 一 个 部 分 。 其 实 不 然 ，InnoDB 缓 冲 池 中 有 Insert Buffer 信 息 固然 
不 错 ， 但 是 Insert Buffer 和 数据 页 一 样 ， 也 是 物理 页 的 一 个 组 成 部 分 。 

我 们 知道 ， 主 键 是 行 唯一 的 标识 符 ， 在 应 用 程序 中 行 记录 的 插入 顺序 是 按照 主键 递增 
的 顺序 进行 插入 的 。 因 此 ， 插 和 人 聚集 索引 一 般 是 顺序 的 ， 不 需要 磁盘 的 随机 读 取 。 比 如 说 
我 们 按 下 列 SQL 定义 的 表 。 


mysql» create table t ( id int auto increment, name varchar(30),primary key (id)); 
Query OK, 0 rows affected (0.14 sec) 


id 列 是 自 增长 的 ， 这 意味 着 当 执 行 插入 操作 时 ，id 列 会 自动 增长 ， 页 中 的 行 记录 按 id 执 
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行 顺 序 存放 。 一 般 情况 下 ， 不 需要 随机 读 取 另 一 页 执行 记录 的 存放 。 因 此 ， 在 这 样 的 情况 
下 ， 揪 入 操作 一 般 很 快 就 能 完成 。 但 是 ， 不 可 能 每 张 表 上 只 有 一 个 聚集 索引 ， 在 更 多 的 情 
MP, ke LAS SIERRA #5 (secondary index)。 比 如 ， 我 们 还 需要 按照 
name 这 个 字段 进行 查找 ， 并 且 name 这 个 字段 不 是 唯一 的 。 即 ， 表 是 按 如 下 的 SQL 语句 定 
义 的 : 

mysql» create table t ( id int auto increment, name varchar(30),primary key 


(id),key(name)); 
Query OK, 0 rows affected (0.21 sec) 


这 样 的 情况 下 产生 了 一 个 非 聚集 的 并 且 不 是 唯一 的 索引 。 在 进行 插入 操作 时 ， 数 据 页 
的 存放 还 是 按 主 键 id 的 执行 顺序 存放 ， 但 是 对 于 非 聚集 索引 ， 叶 子 节点 的 插入 不 再 是 顺序 
的 了 。 这 时 就 需要 离散 地 访问 非 聚集 索引 页 ， 揪 入 性 能 在 这 里 变 低 了 。 然 而 这 并 不 是 这 个 
name 字 段 上 索引 的 错误 ， 因 为 B+ 树 的 特性 决定 了 非 聚集 索引 插入 的 离散 性 。 

InnoDB 存 储 引 警 开创 性 地 设计 了 插入 缓冲 ， 对 于 非 聚 集 索 引 的 插入 或 更 新 操作 ， 不 是 
每 一 次 直接 插入 索引 页 中 。 而 是 先 判 断 插入 的 非 诊 集 索引 页 是 否 在 缓冲 池 中 。 如 果 在 ， 则 
直接 插入 ， 如 果 不 在 ， 则 先 放 入 一 个 插入 缓冲 区 中 ， 好 似 欺骗 数据 库 这 个 非 聚集 的 索引 已 
经 插 到 叶子 节点 了 , 然后 再 以 一 定 的 频率 执行 插入 缓冲 和 非 聚集 索引 页 子 节 点 的 合并 操作 ， 
这 时 通常 能 将 多 个 插入 合并 到 一 个 操作 中 (因为 在 一 个 索引 页 中 )， 这 就 大 大 提高 了 对 非 
聚集 索引 执行 插入 和 修改 操作 的 性 能 。 

插入 缓冲 的 使 用 需要 满足 以 下 两 个 条 件 : 

口 索 引 是 辅助 索引 。 

口 索 引 不 是 唯一 的 。 

当 满 足以 上 两 个 条 件 时 ，InnoDB 存 储 引 获 会 使 用 插入 缓冲 ， 这 样 就 能 提高 性 能 了 。 不 
过 考虑 一 种 情况 ， 应 用 程序 执行 大 量 的 插入 和 更 新 操作 ， 这 些 操作 都 涉及 了 不 唯一 的 非 聚 
集 索 引 ， 如 果 在 这 个 过 程 中 数据 库 发 生 了 宕 机 ， 这 时 候 会 有 大 量 的 插 和 人 缓冲 并 没有 合并 到 
实际 的 非 聚 集 索引 中 。 如 果 是 这 样 ， 恢 复 可 能 需要 很 长 的 时 间 ， 极 端 情 况 下 甚至 需要 几 个 
小 时 来 执行 合并 恢复 操作 。 

辅助 索引 不 能 是 唯一 的 ， 因 为 在 把 它 插入 到 播 和 人 缓冲 时 ， 我 们 并 不 去 查找 索引 页 的 情 
况 。 如 果 去 查找 肯定 又 会 出 现 离散 读 的 情况 ， 揪 入 缓冲 就 失去 了 意义 。 
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可 以 通过 命令 SHOW ENGINE INNODB STATUS 来 查看 插入 缓冲 的 信息 : 


mysql> show engine innodb status\G; 


ecce e ke e ek kk kk e kk kx ke ke kx kk kkk 1. YOW XX kk kk ko kok ko kc kckck k ke kekokk kk KE 


Type: InnoDB 
Name: 
Status: 


Ibuf: size 7545, free list len 3790, seg size 11336, 
8075308 inserts, 7540969 merged recs, 2246304 merges 


1 row in set (0.00 sec) 


seg size 显 示 了 当前 插入 缓冲 的 大 小 为 11 336*+16KB ， 大 约 为 177MB free list len 代 表 
了 空闲 列表 的 长 度 ，size 代 表 了 已 经 合并 记录 页 的 数量 。 下 面 一 行 可 能 是 我 们 真正 关心 的 ， 
因为 它 显示 了 提高 性 能 了 。Inserts 代 表 插 入 的 记录 数 ，merged recs 代 表 合 并 的 页 的 数量 ， 
merges 代 表 合 并 的 次 数 。merges : merged recs 大 约 为 3 : 1， 代 表 插 入 缓冲 将 对 于 非 聚 集 索 
引 页 的 IO 请 求 大 约 降低 了 3 倍 。 

目前 插入 缓冲 存在 一 个 问题 是 ， 在 写 密集 的 情况 下 ， 插 入 缓冲 会 占用 过 多 的 缓冲 池内 
存 ， 软 认 情 况 下 最 大 可 以 占用 1/2 的 缓冲 地 内 存 。 以 下 是 InnoDB 存 储 引擎 源 代 码 中 对 insert 


buffer 的 初始 化 操作 : 
/** Buffer pool size per the maximum insert buffer size */ 
#define IBUF POOL SIZE PER MAX SIZE 2 


ibuf-»max size = buf pool get curr size() / UNIV PAGE SIZE 
/ IBUF POOL SIZE PER MAX SIZE; 


这 对 其 他 的 操作 可 能 会 带 来 一 定 的 影响 。Percona 已 发 布 一 些 patch 来 修正 插入 缓冲 占 
用 太 多 缓冲 池内 存 的 问题 ， 具 体 的 可 以 到 http://www.percona.comy/percona-lab.html 查 找 。 
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简单 来 说 ， 修 改 IBUF_POOL_SIZE_PER_MAX_SIZE 就 可 以 对 插入 缓冲 的 大 小 进行 控制 ， 
例如 ， 将 IBUF_POOL_SIZE_PER_MAX_SIZE 改 为 3， 则 最 大 只 能 使 用 1/3 的 缓冲 池内 存 。 


2.4.2 两 次 写 


如 果 说 插入 缓冲 带 给 InnoDB 存 储 引擎 的 是 性 能 ， 那 么 两 次 写 带 给 InnoDB 存 储 引 擎 的 
是 数据 的 可 靠 性 。 当 数据 库 宕 机 时 ， 可 能 发 生 数 据 库 正 在 写 一 个 页 面 ， 而 这 个 页 只 写 了 一 
部 分 (比如 16K 的 页 ,只 写 前 4K 的 页 ) 的 情况 ,我 们 称 之 为 部 分 写 失效 (partial page write), 
在 InnoDB 存 储 引擎 未 使 用 double write 技术 前 ， 曾 出 现 过 因为 部 分 写 失效 而 导致 数据 丢失 
的 情况 。 

.有 人 也 许 会 想 ， 如 果 发 生 写 失效 ， 可 以 通过 重 做 日 志 进行 恢复 。 这 是 一 个 办 法 。 但 是 
必须 清楚 的 是 ， 重 做 日 志 中 记录 的 是 对 页 的 物理 操作 ， 如 偏 移 量 800， 写 'aaaa' 记 录 。 如 果 
这 个 页 本 身 已 经 损坏 ， 再 对 其 进行 重 做 是 没有 意义 的 。 这 就 是 说 ， 在 应 用 (apply) EMA 
志 前 ， 我 们 需要 一 个 页 的 副本 ， 当 写 人 失效 发 生 时 ， 先 通过 页 的 副本 来 还 原 该 页 ， 再 进行 
重 做 ， 这 就 是 doublewrite。InnoDB 存 储 引擎 doublewrite 的 体系 架构 如 图 2-4 所 示 : 


Doublewrite Buffer 
(2MB) 


write write 


doublewrite doublewrite 
(IMB) (IMB) 


共享 表 空间 












recovery 








数据 文件 (ibd) 


图 2-4 InanoDB 存 储 引 擎 doubliewrite 架 构 


doublewrite 由 两 部 分 组 成 : 一 部 分 是 内 存 中 的 doublewrite buffer, X/\42MB; 另 一 
部 分 是 物理 磁盘 上 共享 表 空 间 中 连续 的 128 个 页 ， 即 两 个 区 (extent)， 大 小 同样 为 2MB。 
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当 缓 冲 池 的 脏 页 刷新 时 ， 并 不 直接 写 磁盘 ， 而 是 会 通过 memcpy 函 数 将 脏 页 先 拷贝 到 内 存 
中 的 doublewrite buffer， 之 后 通过 doublewrite buffer 再 分 两 次 ， 每 次 写 人 1MB 到 共享 表 空 
间 的 物理 磁盘 上 ， 然 后 马上 调用 fsync 函 数 ， 同 步 磁盘 ， 避 免 缓 冲 写 带 来 的 问题 。 在 这 个 过 
程 中 ， 因 为 doublewrite 页 是 连续 的 ， 因 此 这 个 过 程 是 顺序 写 的 ， 开 销 并 不 是 很 大 。 在 完成 
doublewrite 页 的 写 入 后 ， 再 将 doublewrite buffer 中 的 页 号 入 各 个 表 空 间 文件 中 ， 此 时 的 写 
入 则 是 离散 的 。 可 以 通过 以 下 命令 观察 到 doublewrite 运 行 的 情况 : 


mysql» show global status like 'innodb dblwr$' VG; 
kc ce ce ce ce e ee e dece KK KK KK dece kkk kkk Ts row kek RAR aK kk kkk kk kk k k k k k ke EEE 
Variable_name: Innodb_dblwr_pages_written 

Value: 6325194 
kkkkkkkkkkkkkkkkkkkkkkkkkkk 24 LOW *kkkkkkkkkk kk kk k kk kkk kkkkkk 
Variable name: Innodb dblwr writes 

Value: 100399 


2 rows in set (0.00 sec) 


可 以 看 到 ，doublewrite 一 共 写 了 6 325 194 个 页 ， 但 实际 的 写 和 次数 为 100 399， 基 本 上 
符合 64 : 1。 如 果 发 现 你 的 系统 在 高 峰 时 Innodb_dblwr_pages_written: ee vites 
远 小 于 64 : 1， 那 么 说 明 你 的 系统 写 人 压力 并 不 是 很 高 。 

如 果 操 作 系统 在 将 页 写 人 磁盘 的 过 程 中 崩溃 了 ， 在 恢复 过 程 中 ，InhoDB 存 储 引 擎 可 以 
从 共享 表 空 间 中 的 doublewrite 中 找到 改 页 的 一 个 副本 ， 将 其 拷贝 到 表 空 间 文件 ， 再 应 用 重 
做 日 志 。 下 面 显 示 了 由 doublewrite 进 行 恢复 的 一 种 情况 : 


090924 11:36:32 mysqld restarted 

090924 11:36:33 InnoDB: Database was not shut down normally! 

InnoDB: Starting crash recovery. 

InnoDB: Reading tablespace information from the .ibd files... 

InnoDB: Error: space id in fsp header 0, but in the page header 4294967295 
InnoDB: Error: tablespace id 4294967295 in file ./test/t.ibd is not sensible 
InnoDB: Error: tablespace id 0 in file ./test/t2.ibd is not sensible 

090924 11:36:33 InnoDB: Operating system error number 40 in a file operation. 
InnoDB: Error number 40 means 'Too many levels of symbolic links'. 

InnoDB: Some operating system error numbers are described at 

InnoDB: http://dev.mysql.com/doc/refman/5.0/en/operating-system-error-codes.html 
InnoDB: File name ./now/member 

InnoDB: File operation call: 'stat'. 

InnoDB: Error: os file readdir next file() returned -1 in 


InnoDB: directory ./now 
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InnoDB: Crash recovery may have failed for some .ibd files! 
InnoDB: Restoring possible half-written data pages from the doublewrite 
InnoDB: buffer... : 


参数 skip_innodb_doublewrite 可 以 禁止 使 用 两 次 写 功 能 ， 这 时 可 能 会 发 生前 面 提 及 的 
写 失效 问题 。 不 过 ， 如 果 你 有 多 台 从 服务 器 (slave server), ， 需 要 提供 较 快 的 性 能 (An 
slave 上 做 的 是 RAID0)， 也 许 启用 这 个 参数 是 一 个 办 法 。 不 过 ， 在 需要 提供 数据 高 可 靠 性 
的 主 服务 器 (master server) 上 ， 任 何 时 候 我 们 都 应 确保 开启 两 次 写 功能 。 


PER: 有 些 文件 系统 本 身 就 提供 了 部 分 写 失 效 的 防范 机 制 ， 如 ZFS 文 件 系统 。 A 
这 种 情况 下 ,我们 就 不 要 启用 doublewrite T , 


2.4.3 自 适应 哈 希 索引 


N (hash) 是 一 种 非常 快 的 查找 方法 ， 一 般 情 况 下 查找 的 时 间 复 杂 度 为 O (1)。 常 
用 于 连接 (join) 操作 ， 如 SQL Server 和 Oracle 中 的 哈 希 连接 (hash join) 。 但 是 SQL 
Server 和 Oracle 等 常见 的 数据 库 并 不 支持 哈 希 索引 (hash index)。MySQL 的 Heap 存 储 引 擎 
默认 的 索引 类 型 为 哈 希 ， 而 InnoDB 存 储 引 擎 提出 了 另 一 种 实现 方法 ， 自 适应 哈 希 索引 
(adaptive hash index) , 

InnoDB 存 储 引 警 会 监控 对 表 上 索引 的 查找 ， 如 果 观 察 到 建立 哈 希 索引 可 以 带 来 速度 的 
提升 ， 则 建立 哈 希 索引 ， 所 以 称 之 为 自 适应 (adaptive) 的 。 自 适应 哈 希 索 引 通 过 缓冲 池 
的 B+ 树 构 造 而 来 ， 因 此 建立 的 速度 很 快 。 而 且 不 需要 将 整个 表 都 建 哈 希 索引 ，InnoDB 存 
储 引 敬 会 自动 根据 访问 的 频率 和 模式 来 为 某 些 页 建立 哈 希 索引 。 

根据 InnoDB 的 官方 文档 显示 ， 启 用 自 适 应 哈 希 索引 后 ， 读 取 和 写 入 速度 可 以 提高 2 
fis 对 于 辅助 索引 的 连接 操作 ， 性 能 可 以 提高 5 倍 。 在 我 看 来 ， 自 适应 哈 希 索引 是 非常 好 
的 优化 模式 ， 其 设计 思想 是 数据 库 自 优化 (self-tuning)， 即 无 需 DBA 对 数据 库 进 行 调整 。 

通过 命令 SHOW ENGINE INNODB STATUS 可 以 看 到 当前 自 适 应 哈 希 索引 的 使 用 状 
UL, du Hr: 


mysql» show engine innodb status\G; 


KKK e hee e he e e e e hehe e e e e e e e e e e sk]. row CK ke oe e oe e e e e ee e oe eee e e e e e e e KKK 
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Status: 


s.c t 


Ibuf: size 2249, free list len 3346, seg size 5596, 
374650 inserts, 51897 merged recs, 14300 merges 

Hash table size 4980499, node heap has 1246 buffer(s) 
1640.60 hash searches/s, 3709.46 non-hash searches/s 


e» n 


现在 可 以 看 到 自 适应 哈 希 索引 的 使 用 信息 了 ， 包 括 自 适 应 哈 希 索 引 的 大 小 、 使 用 情况 、 
每 秒 使 用 自 适 应 哈 希 索引 搜索 的 情况 。 值 得 注意 的 是 , 哈 希 索引 只 能 用 来 搜索 等 值 的 查询 ， 
如 Select * from table where index col = 'xxx'， 人 而 对 于 其 他 查找 类 型 ， 如 范围 查找 ， 是 不 能 
使 用 的 。 因 此 ， 这 里 出 现 了 non-hash searches/s 的 情况 。 用 hash searches : non-hash searches 
命令 可 以 大 概 了 解 使 用 哈 希 索 引 后 的 效率 。 

由 于 自 适 应 哈 希 索引 是 由 InnoDB 存 储 引擎 控制 的 ， 所 以 这 里 的 信息 只 供 我 们 参考 。 不 
过 我 们 可 以 通过 参数 innodb_adaptive_hash_index 来 禁用 或 启动 此 特性 ， 默 认为 开启 。 


2.5 启动 、 关 闭 与 恢复 


InnoDB 存 储 引 擎 是 MySQL 的 存储 引擎 之 一 ， 因 此 InnoDB 存 储 引 擎 的 启动 和 关闭 更 准 
确 地 是 指 在 MySQL 实 例 的 启动 过 程 中 对 InnoDB 表 存储 引擎 的 处 理 过 程 。 

: 在 关闭 时 ， 参 数 innodb_fast_shutdown 影 响 着 表 的 存储 引擎 为 InnoDB 的 行为 。 该 参数 
可 取 值 为 09。、1、2。0 代 表 当 MySQL 关 闭 时 ，InnoDB 需 要 完成 所 有 的 full purge 和 merge 
insert buffer 操 作 ， 这 会 需要 一 些 时 间 ， 有 时 甚至 需要 几 个 小 时 来 完成 。 如 果 在 做 InnoDB 
plugin 升 级 ， 通 常 需要 将 这 个 参数 调 为 0， 然 后 再 关闭 数据 库 。1 是 该 参数 的 默认 值 ， 表 示 
不 需要 完成 上 述 的 full purge 和 merge insert buffer 操 作 ， 但 是 在 缓冲 池 的 一 些 数据 脏 页 还 是 
会 刷新 到 磁盘 。2 表 示 不 完成 full purge 和 merge insert buffer 操 作 ， 也 不 将 缓冲 池 中 的 数据 
脏 页 写 回 磁盘 ， 而 是 将 日 志 都 写 入 日 志文 件 。 这 样 不 会 有 任何 事务 会 丢失 ,但 是 MySQL 数 
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据 库 下 次 启动 时 ， 会 执行 恢复 操作 (recovery )。 

当 正 常 关闭 MySQL 数 据 库 时 ， 下 一 次 启动 应 该 会 很 正常 。 但 是 ， 如 果 没 有 正常 地 关闭 
数据 库 ， 如 用 kil] 命 令 关闭 数据 库 ， 在 MySQL 数 据 库 运 行 过 程 中 重启 了 服务 器 ， 或 者 在 关 
闭 数据 库 时 将 参数 innodb_fast_shutdown 设 为 了 2，MySQL 数 据 库 下 次 启动 时 都 会 对 
InnoDB 存 储 引 擎 的 表 执 行 恢复 操作 。 

参数 innodb_force_recovery 影 响 了 整个 InnoDB 存 储 引 擎 的 恢复 状况 。 该 值 默认 为 0， 表 
示 当 需要 恢复 时 执行 所 有 的 恢复 操作 。 当 不 能 进行 有 效 恢复 时 ,如 数据 页 发 生 了 corruption， 
MySQL 数 据 库 可 能 会 宕 机 ， 并 把 错误 写 人 错误 日 志 中 。 

但 是 ， 在 某 些 情况 下 ， 我 们 可 能 并 不 需要 执行 完整 的 恢复 操作 ， 我 们 自己 知道 如 何 进 
行 恢 复 。 比 如 正在 对 一 个 表 执 行 alter table 操 作 ， 这 时 意外 发 生 了 ， 数 据 库 重启 时 会 对 
InnoDB 表 执行 回 滚 操 作 。 对 于 一 个 大 表 ， 这 需要 很 长 时 间 ， 甚 至 可 能 是 儿 个 小 时 。 这 时 我 
们 可 以 自行 进行 恢复 ， 例 如 可 以 把 表 删 除 ， 从 备份 中 重新 将 数据 导入 表 中 ， 这 些 操作 的 速 
度 可 能 要 远 远 快 于 回 滚 操作 。 

innodb_force_recovery 还 可 以 设置 为 6 个 非 零 值 ; 1 一 6。 大 的 数字 包含 了 前 面 所 有 小 数 
字 的 影响 ， 具 体 情况 如 下 。 

口 1 (SRV_FORCE_IGNORE_CORRUPT): 忽略 检查 到 的 corrupt 页 。 | 

Q2 (SRV. FORCE NO BACKGROUND); 阻止 主线 程 的 运行 ， 如 主线 程 需要 执行 

full purge 操 作 ， 会 导致 crash。 

口 3 (SRV FORCE, NO TRX UNDO); : 不 执行 事务 回 滚 操作 。 

口 4 (SRV FORCE NO IBUF MERGE): 不 执行 播 和 缓冲 的 合并 操作 。 

口 5 (SRV_FORCE_NO_UNDO_LOG_SCAN): 不 查看 撤销 日 志 (Undo Log), 

InnoDB 存 储 引 擎 会 将 未 提交 的 事务 视 为 已 提交 。 

Q6 (SRV. FORCE, NO LOG REDO): 不 执行 前 滚 的 操作 。 

需要 注意 的 是 ， 当 设置 参数 innodb_force_recovery 大 于 0 后 ， 可 以 对 表 进 行 select、 
create、drop 操 作 ， 但 insert、update 或 者 delete 这 类 操作 是 不 人 允许 的 。 

我 们 来 做 个 实验 ， 模 拟 故 障 的 发 生 。 在 第 一 会 话 中 ， 对 一 张 接近 1 000W 行 的 InnoDB 存 
储 引擎 表 执 行 更 新 操作 ， 但 是 完成 后 不 要 马上 提交 : 
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mysql» start transaction; 


Query OK, 0 rows affected (0.00 sec) 


mysql» update Profile set password=''; 
Query OK, 9587770 rows affected (7 min 55.73 sec) 
Rows matched: 9999248 Changed: 9587770 Warnings: 0 


start transaction 语 句 开启 了 事务 ， 同 时 防止 了 自动 提交 的 发 生 ，update 操 作 则 会 产生 大 
量 的 回 滚 日 志 。 这 时 ， 我 们 人 为 地 kil 掉 MySQL 数 据 库 服务 器 。 


[root@nineyou0-43 ~]# ps -ef | grep mysqld 


root 28007 1 0 13:40 pts/1 00:00:00 /bin/sh ./bin/mysqld safe 
--datadir-/usr/local/mysql/data --pid-file-/usr/local/mysql/data/nineyou0-43.pid 
mysql 28045 28007 42 13:40 pts/1 00:04:23 


/usr/local/mysql/bin/mysqld --basedir=/usr/local/mysql 
--datadir=/usr/local/mysql/data --user=mysql 
--pid-file=/usr/local/mysql/data/nineyou0-43.pid 
--skip-external-locking --port-3306 --socket-/tmp/mysql.sock 
root 28110 26963 0 13:50 pts/11 00:00:00 grep mysqld 
[root&nineyou0-43 -]£ kill -9 28007 

[root@nineyou0-43 -j£ kill -9 28045 


通过 kill 命 令 ， 我 们 人 为 地 模拟 了 一 次 数据 库 宕 机 故障 ， 当 MySQL 数 据 库 下 次 启动 时 
会 对 update 的 这 个 事务 执行 回 滚 操作 ， 而 这 些 信息 都 会 记录 在 错误 日 志文 件 中 ， 默 认 后 绥 
名 为 err。 如 果 查 看 错误 日 志文 件 ， 可 得 到 如 下 结果 : 


090922 13:40:20 InnoDB: Started; log sequence number 6 2530474615 
InnoDB: Starting in background the rollback of uncommitted transactions 


090922 13:40:20 InnoDB: Rolling back trx with id 0 5281035, 8867280 rows to undo 


InnoDB: Progress in percents: 1090922 13:40:20 

090922 13:40:20 [Note] /usr/local/mysql/bin/mysqld: ready for connections. 
Version: '5.0.45-1log' socket: '/tmp/mysql.sock' port: 3306 MySQL Community 
Server (GPL) 

2345 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 
58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 

InnoDB: Rolling back of trx id 0 5281035 completed 

090922 13:49:21 InnoDB: Rollback of non-prepared transactions completed 


可 以 看 到 ， 如 果 采 用 默认 的 策略 ， 即 把 innodb_force_recovery 设 为 0，InnoDB 会 在 每 次 
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启动 后 对 发 生 问题 的 表 执 行 恢复 操作 ， 通 过 错误 日 志文 件 ， 可 知 这 次 回 滚 操作 需要 回 滚 
8 867 280 行 记录 ， 总 共 耗 时 约 9 分 多 钟 。 

我 们 做 再 做 一 次 同样 的 测试 ， 只 不 过 在 启动 MySQL 数 据 库 前 将 参数 innodb_force_ 
recoveIy 设 为 3， 然 后 观察 InnoDB 存 储 引 擎 是 否 还 会 执行 回 滚 操作 ， 查 看 错误 日 志文 件 ， 
可 看 到 : 


090922 14:26:23 InnoDB: Started; log sequence number 7 2253251193 

InnoDB: !!! innodb force recovery is set to 3 !!! 

090922 14:26:23 [Note] /usr/local/mysql/bin/mysqld: ready for connections. 
Version: ‘5.0.45-log' Socket: '/tmp/mysql.sock' port: 3306 MySQL Community 
Server (GPL) 


这 里 出 现 了 “1 1 1 ”，InnoDB 警 告 你 已 经 将 innodb_force_recovery 设 置 为 3， 不 会 进 
行 undo 的 回 滚 操作 了 。 因 此 数据 库 很 快 启动 完成 ， 但 是 你 应 该 很 小 心 当 前 数据 库 的 状态 ， 
并 仔细 确认 是 否 不 需要 回 滚 操 作 。 


2.6 InnoDB Plugin = 新 版 本 的 InnoDB 存 储 引 擎 


MySQL 5.1 这 个 版 本 的 一 个 很 大 的 变动 是 采用 了 插件 式 的 架构 。 通 过 分 析 源 代码 会 发 
现 ， 每 个 存储 引擎 是 通过 继承 一 个 handler 的 C++ 基 类 (之 前 的 版 本 大 多 是 通过 函数 指针 来 
实现 )。 如 果 查 看 InnoDB 存 储 引擎 的 源 代 码 ， 会 看 到 下 面 的 内 容 : 


/* The class defining a handle to an Innodb table */ 
class ha innobase: public handler 

{ 

row_prebuilt_t*prebuilt;/* prebuilt struct in InnoDB, used 
to save CPU time with prebuilt data 

structures*/ 

THD*user_thd;/* the thread handle of the user 
currently using the handle; this is 

set in external_lock function */ 

THR LOCK DATAlock; 

INNOBASE SHARE*share; 


uchar*upd buff;/* buffer used in updates */ 
uchar*key val buff;/* buffer used in converting 
search key values from MySQL format 


to Innodb format */ 


www.TopSage.com 


InnoDB 5 fik 7] 3E 43 


ulongupd and key val buff len; 
/* the length of each of the previous 


two buffers */ 


这 样 设计 的 好 处 是 ， 现 在 所 有 的 存储 引擎 都 是 真正 的 插件 式 了 。 在 以 前 ， 如 果 发 现 一 
个 InnoDB 存 储 引擎 的 Bug ， 你 能 做 的 就 是 等 待 MySQL 新 版 本 的 发 布 ，InnoDB 公 司 本 身 对 
此 只 能 通过 补丁 的 形式 来 解决 ， 你 还 需要 重新 编译 一 次 MySQL 才 行 。 现 在 ， 你 可 以 得 到 一 
个 新 版 本 的 InnoDB 存 储 引 擎 ， 用 来 替代 有 Bug 的 旧 引 警 。 这 样 ， 当 有 重大 问题 时 ， 不 用 等 
待 MySQL 的 新 版 本 ， 只 要 相应 的 存储 引擎 提供 商 发 布 新 版 本 即 可 。- 

当然 ，InnoDB Plugin 是 上 述 的 一 个 实现 ， 但 更 重要 的 是 InnoDB Plugin 还 给 我 们 带 来 
了 其 他 非常 棒 的 新 特性 ， 你 应 该 把 它 看 做 是 新 版 本 的 InnoDB 存 储 引 擎 ， 我 们 通过 参数 
innodb_version 来 查看 当前 InnoDB 的 版 本 : 


mysql» show variables like 'innodb_version'\G; 
e e e de ce he e cde ee dede ode he hehehe hee e oe e e ee e x 1. COW o ooeoeoe e e eoe je de he oe de he hee he ee e be à A 
Variable name: innodb version 
Value: 1.0.4 
1 row in set (0.00 sec) 


在 MySQL 5.1.38 前 的 版 本 中 ， 当 你 需要 安装 InnoDB Plugin 时 ， 必 须 下 载 Plugin 的 文件 ， 
解压 后 再 进行 一 系列 的 安装 。 从 MySQL 5.1.38 开 始 ，MySQL 包 含 了 2 个 不 同 版 本 的 InnoDB 
存储 引擎 一 一 一 个 是 旧版 本 的 引擎 ， 称 之 为 build-in innodb, 另 一 个 是 1.0.4 版 本 的 InnoDB 
存储 引擎 。 如 果 你 想 使 用 新 的 InnDB Plugin 引 擎 ， 只 需 在 配置 文件 做 如 下 设置 : 


[mysqld] 

ignore-builtin-innodb 

plugin-load=innodb=ha_innodb_plugin.so 
;innodb trx-ha innodb plugin.so 
;innodb locks-ha innodb plugin.so 
;innodb cmp-ha innodb plugin.so 
;innodb cmp reset-ha innodb plugin.so 
;innodb cmpmem-ha innodb plugin.so 
;innodb cmpmem reset-ha innodb plugin.so 


在 写本 书 时 ，InnoDB Plugin 的 最 新 版 本 是 1.0.4， 并 已 经 是 MySQL 5.4 版 本 默认 的 
InnoDB 存 储 引擎 版 本 ， 其 新 功能 包括 以 下 几 点 。 
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O 快速 索引 重建 。 

口 更 好 的 多 核 性 能 。 

口 新 的 页 结构 。 

口 页 压缩 功能 。 

O 更 好 的 BLOB 处 理 能 力 。 

感 兴趣 的 读者 可 以 在 官网 http://www.innodb.com/products/innodb_plugin/ 上 获得 更 多 的 
信息 。 本 书 在 之 后 的 章节 中 会 对 新 版 本 InmnoDB 存 储 引擎 进行 详细 讲解 。 


2.7 小 结 


本 章 首先 介绍 了 InnoDB 存 储 引 擎 的 历史 、InnoDB 存 储 引擎 的 体系 结构 〈 包 括 后 台 线 
程 和 内 存 结构 ) ， 之 后 又 详细 讲解 了 InnoDB 存 储 引擎 的 关键 特性 ， 这 些 特性 使 得 InnoDB 存 
储 引 擎 变 得 更 具 “ 魅 力 ”， 最 后 叙述 了 启动 和 关闭 MySQL 时 一 些 配置 文件 参数 对 InnoDB 存 
储 引擎 的 影响 。 

通过 本 章 的 铺垫 ， 后 文 就 能 更 深入 和 全 面 地 讲解 InnoDB 引 擎 。 第 3 章 开始 介绍 MySQL 
的 文件 ， 包 括 MySQL 本 身 的 文件 和 与 InnoDB 存 储 引擎 有 关 的 文件 ， 之 后 的 章节 将 介绍 基 
于 InnoDB 存 储 引 擎 的 表 ， 并 揭示 其 内 部 的 存储 构造 。 
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本 章 将 分 析 构 成 MySQL 数 据 库 和 InnoDB 存 储 引 苟 表 的 各 种 类 型 文件 ， 如 下 所 示 。 
Q 参数 文件 : 告诉 MySQL 实 例 启动 时 在 哪里 可 以 找到 数据 库 文 件 ， 并 且 指 定 某 些 初始 
化 参数 ， 这 些 参数 定义 了 某 种 内 存 结构 的 大 小 等 设置 ， 还 会 介绍 各 种 参数 的 类 型 。 
Q 日 志文 件 : 用 来 记录 MySQL 实 例 对 某 种 条 件 做 出 响应 时 写 入 的 文件 。 如 错误 日 志文 
件 、 二 进 制 日 志文 件 、 满 查询 日 志文 件 、 查 询 日 志文 件 等 。 

口 socket 文 件 : 当 用 Unix 域 套 接 字 方 式 进行 连接 时 需要 的 文件 。 

口 pid 文 件 : MySQL 实 例 的 进程 ID 文件 。 

口 MySQL 表 结构 文件 ， 用 来 存放 MySQL 表 结构 定义 文件 。 

唱 存储 引擎 文件 : 因为 MySQL 表 存储 引擎 的 关系 ， 每 个 存储 引擎 都 会 有 自己 的 文件 来 
保存 各 种 数据 。 这些 存 储 引 擎 真正 存储 了 数据 和 索引 等 数据 。 本 章 主 要 介绍 与 
InnoDB 有 关 的 存储 引擎 文件 。 


3.1 参数 文件 


在 第 1 章 中 已 经 介绍 过 了 ， 当 MySQL 实 例 启动 时 ，MySQL 会 先 去 读 一 个 配置 参数 文件 ， 
用 来 寻找 数据 库 的 各 种 文件 所 在 位 置 以 及 指定 某 些 初始 化 参数 ， 这 些 参数 通常 定义 了 某 种 
内 存 结构 有 多 大 等 设置 。 软 认 情 况 下 ，MySQL 实 例会 按照 一 定 的 次 序 去 取 ， 你 只 需 通过 命 
令 mysql --help | grep my.cnf 来 寻找 即 可 。 

MySQL 参 数 文件 的 作用 和 Oracle 的 参数 文件 极其 类 似 ， 不同 的 是 ，Oracle 实 例 启 动 时 
车 找 不 到 参数 文件 ， 是 不 能 进行 装载 (mount) 操作 的 。MySQL 稍 微 有 所 不 同 ，MySQL 实 
例 可 以 不 需要 参数 文件 ， 这 时 所 有 的 参数 值 取决 于 编译 MySQL 时 指定 的 默认 值 和 源 代 码 中 
指定 参数 的 默认 值 。 但 是 ， 如 果 MySQL 在 默认 的 数据 库 目 录 下 找 不 到 mysql 架 构 ， 则 启动 
同样 会 失败 ， 你 可 能 在 错误 日 志文 件 中 找到 如 下 内 容 : 
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090922 16:25:52 mysqld started 

090922 16:25:53 InnoDB: Started; log sequence number 8 2801063211 

InnoDB: !!! innodb force recovery is set to 1 11! 

090922 16:25:53 [ERROR] Fatal error: Can't open and lock privilege tables: Table 
'mysql.host' doesn't exist 

090922 16:25:53 mysqld ended 


MySQL 中 的 mysql 架 构 中 记录 了 访问 该 实例 的 权限 ， 当 找 不 到 这 个 架构 时 ，MySQL 实 
例 不 会 成 功 启动 。 

和 Oracle 参 数 文件 不 同 的 是 ，Oracle 的 参数 文件 分 为 二 进 制 的 参数 文件 (spfile) 和 文 
本 类 型 的 参数 文件 (init.ora), ， 而 MySQL 的 参数 文件 仅 是 文本 的 ， 方 便 的 是 ， 你 可 以 通过 
一 些 常 用 的 编辑 软件 (如 vi 和 emacs) 进行 参数 的 编辑 。 | 


3.1.1 什么 是 参数 


简单 地 说 ， 可 以 把 数据 库 参数 看 成 一 个 键 / 值 对 。 第 2 章 已 经 介绍 了 一 个 对 于 InnoDB 存 
储 引 警 很 重要 的 参数 innodb_buffer_pool_size。 如 我 们 将 这 个 参数 设置 为 1G ， 
innodb_buffer_pool_size=1G,， 这 里 的 “ 键 ”是 innodb_buffer_ pool_size,“ 值 ”是 1G， 这 
就 是 我 们 的 键 值 对 。 可 以 通过 show variables 查 看 所 有 的 参数 ， 或 通过 like 来 过 滤 参 数 名 。 
从 MySQL 5.1 版 本 开始 ， 可 以 通过 information_schema 架 构 下 的 GLOBAL_VARIABLES 视 
图 来 进行 查找 ， 如 下 所 示 。 


mysql> select * from GLOBAL VARIABLES where VARIABLE NAME like 'innodb buffer%'\G; 


kkkkkkkkkkkkkkkkkkkkkkkkkkk 1. LOW FrKxXKKXKKKKKXKXXKKKkKXKKKrkKkkkk 


VARIABLE NAME: INNODB BUFFER POOL SIZE 
VARIABLE VALUE: 1073741824 


1 row in set (0.00 sec) 


mysql> show variables like ‘innodb_buffer%'\G; 


ee ce ce ce ce ce ce ce eee cde dece dece ce ce ce eee à e € 1. row 3e e de oe e eoe ede dee ce dece ce eoe ce eoe e e e ee n x 


Variable name: innodb buffer pool size 
Value: 1073741824 


1 row in set (0.00 sec) 


无 论 使 用 哪 种 方法 ， 输 出 的 信息 基本 上 都 一 样 的 ， 只 不 过 通过 视图 GLOBAL_ 
VARIABLES 需 要 指定 视图 的 列 名 。 推 荐 使 用 show variables 命 令 ， 因 为 这 个 命令 使 用 更 为 
简单 ， 各 版 本 的 MySQL 数 据 库 都 支持 它 。 
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Oracle 的 参数 有 所 谓 的 隐藏 参数 (undocumented parameter), LAf£Oracle “ABS Ack” 
使 用 ，SQL Server 也 有 类 似 的 参数 。 有 些 DBA 曾 问 我 ，MySQL 中 是 否 也 有 这 类 参数 。 我 的 
回答 是 : 没有 ， 也 不 需要 。 即 使 Oracle 和 SQL Server 中 都 有 些 所 谓 的 隐藏 参数 ， 在 绝 大 多 
数 情况 下 ， 这 些 数据 库 厂 商 也 不 建议 你 在 生产 环境 中 对 其 进行 很 大 的 调整 。 


3.1.2 参数 类 型 


MySQL 参 数 文件 中 的 参数 可 以 分 为 两 类 : 动态 (dynamic) 参数 和 静态 (static) 参数 。 
动态 参数 意味 着 你 可 以 在 MySQL 实 例 运行 中 进行 更 改 ， 静 态 参 数 说 明 在 整个 实例 生命 周期 
内 都 不 得 进行 更 改 ， 就 好 像 是 只 读 (read only) 的 。 可 以 通过 SET 命令 对 动态 的 参数 值 进 
行 修改 ，SET 的 语法 如 下 : 

SET 


| Iglobal | session] system var name= expr 


| [@@global. | 88session. | 88]system var name- expr 


这 里 可 以 看 到 global 和 session 关 键 字 ， 它 们 表明 该 参数 的 修改 是 基于 当前 会 话 还 是 整 
个 实例 的 生命 周期 。 有 些 动态 参数 只 能 在 会 话 中 进行 修改 ， 如 autocommit， 有 些 参 数 修改 
完 后 ， 在 整个 实例 生命 周期 中 都 会 生效 ， 如 binlog_cache_size， 而 有 些 参数 既 可 以 在 会 话 


又 可 以 在 整个 实例 的 生命 周期 内 生效 ， 如 read_buffer_size。 举 例如 下 : 
mysql> set read buffer size-524288; 


Query OK, 0 rows affected (0.00 sec) 


mysql» select @@session.read buffer size\G; 


kkkkkkkkkkkkkkkkkkkkkkkkkkk 1l. row kkkokckckckckckckckokckock oko ke ko ke kk kk kk kx 
@@session.read buffer size: 524288 


1 row in set (0.00 sec) 


mysql> select @@global.read_buffer_size\G; 


keke kkkk kkk kkk kkk GERA ZE e Te row LIEZZEREEEZREREEZEERERRSEZEEEREREE! 
@@global.read buffer size: 2093056 


1 row in set (0.00 sec) 


上 面 我 将 read_buffer_size 的 会 话 值 从 2MB 调 整 为 了 512KB ， 你 可 以 看 到 全 局 的 
read_buffer_size 的 值 仍然 是 2MB ， 也 就 是 说 ， 如 果 有 另 一 个 会 话 登录 到 MySQL 实 例 ， 它 的 
read_buffer_size 的 值 是 2MB ， 而 不 是 S12KB。 这 里 使 用 了 set globallsession 来 改变 动态 变量 


www.TopSage.com 


48 i Ki 


的 值 。 我 们 同样 可 以 直接 使 用 set @@globll@@sessiong ER, Zn T Bras: 


mysql» set @@global.read_buffer_size=1048576; 
Query OK, 0 rows affected (0.00 sec) 


mysql» select @@session.read_buffer_size\G; 


e e ce ee eoe eee e e ee e nee ce e e ce ce n n € x La row fe fe ehe eee e ehe oe e eoe ke ee e nee e e e e € x x 
@@session.read buffer size: 524288 


1 row in set (0.00 sec) 


mysql» select 868global.read buffer size*G; 


e e fe ee he ee e ode he de ehe eoe oe e ee e he e ee n x Ls LOW BERK dede de de he e e e oe ee hehe e e he de he e de e n 
@@global.read buffer size: 1048576 
1 row in set (0.00 sec) 


这 次 我 们 把 read_buffer_size 全 局 值 更 改 为 1IMB ， 而 当前 会 话 的 read_buffer_size 的 值 还 
是 512KB。 这 里 需要 注意 的 是 ， 对 变量 的 全 局 值 进行 了 修改 ， 在 这 次 的 实例 生命 周期 内 都 
有 效 ， 但 MySQL 实 例 本 身 并 不 会 对 参数 文件 中 的 该 值 进行 修改 。 也 就 是 说 下 次 启动 时 ， 
MySQL 实 例 还 是 会 读 取 参数 文件 。 如 果 你 想 让 数据 库 实例 下 一 次 启动 时 该 参数 还 是 保留 为 
当前 修改 的 值 ， 则 必须 修改 参数 文件 。 要 想 知道 MySQL 所 有 动态 变量 的 可 修改 范围 ， 可 以 
参考 MySQL 官方 手册 的 第 5.1.4.2 节 (Dynamic System Variables) 的 相关 内 容 。 

对 于 静态 变量 ， 如 果 对 其 进行 修改 ， 会 得 到 类 似 如 下 的 错误 : 


mysql» set global datadir='/db/mysql'; 
ERROR 1238 (HY000): Variable 'datadir' is a read only variable 


3.2 日 志文 件 


日 志文 件 记 录 了 影响 MySQL 数 据 库 的 各 种 类 型 活动 。MySQL 数 据 库 中 常见 的 日 志文 
件 有 错误 日 志 、 二 进 制 日 志 、 慢 查询 日 志 、 查 询 日 志 。 这 些 日 志文 件 为 DBA 对 数据 库 优化 、 
问题 查找 等 带 来 了 极 大 的 便利 。 


3.2.1 错误 日 志 


错误 日 志文 件 对 MySQL 的 启动 、 运 行 、 关 闭 过 程 进行 了 记录 。MySQL DBA 在 遇 到 问 
题 时 应 该 首先 查看 该 文件 。 该 文件 不 但 记录 了 出 错 信息 ， 也 记录 一 些 警告 信息 或 者 正确 的 
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言 息 。 总 的 来 说 ， 这 个 文件 更 类 似 于 Oracle 的 alert 文 件 ， 只 不 过 在 默认 情况 下 是 err 结 尾 。 
你 可 以 通过 show variables like 'log_error' 来 定位 该 文件 ， 如 : 


mysql> show variables like 'log error'; 

+--------------- c" ———————— M—— * 
| Variable name | Value | 
+-_------------+ 十 二 二 + 
| log_error | /usr/local/mysql/data/stargazer.err 

二 三 二 一 二 二 -= 二 + + 


1 row in set (0.00 sec) 


mysql> system hostname 


stargazer 


可 以 看 到 错误 文件 的 路 径 和 文件 名 ， 软 认 情况 下 错误 文件 的 文件 名 为 服务 器 的 主机 名 。 
如 上 面 我 们 看 到 的 ， 该 主机 名 为 stargazer， 所 以 错误 文件 名 为 startgazer.err。 当 出 现 
MySQL 数 据 库 不 能 正常 启动 时 ， 第 一 个 必须 查找 的 文件 应 该 就 是 错误 日 志文 件 ， 该 文件 记 
录 了 出 错 信息 ， 能 很 好 地 指导 我 们 找到 问题 ， 如 果 当 数据 库 不 能 重启 ， 通 过 查 错误 日 志文 
件 可 以 得 到 如 下 内 容 : 


[root@nineyou0-43 data]# tail -n 50 nineyou0-43.err 

090924 11:31:18 mysqld started 

090924 11:31:18 InnoDB: Started; log sequence number 8 2801063331 

090924 11:31:19 [ERROR] Fatal error: Can't open and lock privilege tables: 
Table ‘mysql.host' doesn't exist 

090924 11:31:19 mysqld ended 


这 里 ， 错 误 日 志文 件 提 示 了 你 找 不 到 权限 库 mysql， 所 以 启动 失败 。 有 时 我 们 可 以 直 
接 在 错误 日 志文 件 里 得 到 优化 的 帮助 ， 因 为 有 些 警 告 (warning) 很 好 地 说 明了 问题 所 在 。 
而 这 时 我 们 可 以 不 需要 通过 查看 数据 库 状 态 来 得 知 ， 如 : 


090924 11:39:44 InnoDB: ERROR: the age of the last checkpoint is 9433712, 
InnoDB: which exceeds the log group capacity 9433498. 

InnoDB: If you are using big BLOB or TEXT rows, you must set the 

InnoDB: combined size of log files at least 10 times bigger than the 
InnoDB: largest such row. 

090924 11:40:00 InnoDB: ERROR: the age of the last checkpoint is 9433823, 
InnoDB: which exceeds the log group capacity 9433498. 

InnoDB: If you are using big BLOB or TEXT rows, you must set the 

InnoDB: combined size of log files at least 10 times bigger than the 


InnoDB: largest such row. 
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090924 11:40:16 InnoDB: ERROR: the age of the last checkpoint is 9433645, 
InnoDB: which exceeds the log group capacity 9433498. 

InnoDB: If you are using big BLOB or TEXT rows, you must set the 

InnoDB: combined size of log files at least 10 times bigger than the 


InnoDB: largest such row. 


3.2.2 慢 查询 日 志 


前 一 小 节 提 到 可 以 通过 错误 日 志 得 到 一 些 关于 数据 库 优 化 的 信息 帮助 ， 而 慢 查询 能 
SQL 语句 的 优化 带 来 很 好 的 帮助 。 可 以 设 一 个 国 值 ， 将 运行 时 间 超 过 该 值 的 所 有 SQL 语句 
都 记录 到 慢 查 询 日 志文 件 中 。 该 闪 值 可 以 通过 参数 long_query_time 来 设置 ， 默 认 值 为 10， 
代表 10 秒 。 

默认 情况 下 ，MySQL 数 据 库 并 不 启动 慢 查 询 日 志 ， 你 需要 手工 将 这 个 参数 设 为 ON， 
然后 启动 ， 可 以 看 到 如 下 结果 : 


mysql» show variables like ‘%long%'; 
+----------------- +------------ + 

| Variable_name | Value | 
+----------------- +------------ + 

| 1ong query time | 10 | 
HE 二- 4--------2---- + 


1 row in set (0.00 sec) 


mysql» show variables like 'log slow queries'; 
4----2-2-2---2-2-2------- +------------ + 

| Variable name | Value | 

+------------------ +------------ + 

| l1og_slow queries | ON| 

+------------------ +------------ + 


1 row in set (0.01 sec) 


TERRIER. 8%, ik Élong query_timeX MF, MySQL RER loeis 
行 时 间 超 过 该 值 的 所 有 SQL 语句 ， 但 对 于 运行 时 间 正 好 等 于 long_query_time 的 情况 ， 并 不 
会 被 记录 下 。 也 就 是 说 ， 在 源 代 码 里 是 判断 大 于 long_query_time ， 而 非 大 于 等 于 。 其 次 ， 
从 MySQL 5.1 开 始 ，long_query_time 开 始 以 微 秒 记录 SQL 语 句 运行 时 间 ， 之 前 仅 用 秒 为 单 
位 记录 。 这 样 可 以 更 精确 地 记录 SQL 的 运行 时 间 ， 供 DBA 分 析 。 对 DBA 来 说 ,一 条 SQL 语 
名 运行 0.5 秒 和 0.05 秒 是 非常 不 同 的 ， 前 者 可 能 已 经 进行 了 表 扫 ， 后 面 可 能 是 走 了 索引 。 下 
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面 的 代码 中 ， 是 在 MySQL 5.1 中 将 long_query_time 设 置 为 了 0.05: 


mysql> show variables like 'long query time'; 


+---~-~------------ +-------+------- + 
.| Variable name | Value| 
qac2ilolnacaescsnln 4--2-2--2--------- + 
| long_query time | 0.050000 | 
+----------------- +-------------- + 


1 row in set (0.00 sec) 


另 一 个 和 慢 查 询 日 志 有 关 的 参数 是 log_queries_not_using_indexes， 如 果 运 行 的 SQL 语 
名 没有 使 用 索引 ， 则 MySQL 数 据 库 同 样 会 将 这 条 SQL 语句 记录 到 慢 查 询 日 志文 件 。 首 先 ， 
确认 打开 了 log_queries_not_using_indexes: 


mysql> show variables like 'log queries not using indexes'; 


| 1og queries not using indexes | ON | 

+------------------------------- +------------------ + 

1 row in set (0.00 sec) 

update 'low game schema'.'item' set SLOT-'8' where GUID-'2222249168632297608' 


and is destroy-'0'; 


这 里 详细 记录 了 SQL 语 名 的 信息 ， 如 上 述 SQL 语 名 运行 的 账户 和 IP、 运 行 时 间 、 锁 定 
的 时 间 、 返 回 行 等 。 我 们 可 以 通过 慢 查询 日 志 来 找 出 有 问题 的 SQL 语句 ， 对 其 进行 优化 。 随 
着 MySQL 数 据 库 服务 器 运行 时 间 的 增加 ， 可 能 会 有 越 来 越 多 的 SQL 查询 被 记录 到 了 慢 查询 

日 志文 件 中 ， 这 时 要 分 析 该 文件 就 显得 不 是 很 容易 了 。MySQL 这 时 提供 的 mysqldumpslow 命 

可 以 很 好 地 解决 这 个 问题 ， 


[root@nh122-190 data]# mysqldumpslow nh122-190-slow.log 
Reading mysql slow query log from nhl22-190-slow.log 
Count: 11 Time=10.00s (110s) Lock=0.00s (0s) Rows-0.0 (0), 
dbother[dbother]@localhost 

insert into test.DbStatus select now(),(N-com select)/(N-uptime),(N- 
com insert)/(N-uptime),(N-com update)/(N-uptime),(N-com delete)/(N-uptime),N- 
(N/N),N-(N/N),N.N/N,N-N/(N*N),GetCPULoadInfo(N) from test.CheckDbStatus order by 
check id desc limit N 
Count: 653 Time-0.00s (0s) Lock=0.00s (0s) Rows=0.0 (0), 9YOUgs SC[9YOUgs SC]e 
[192.168.43.7] 

select custom name one from 'low game schema'.'role details' where role id-'S 


rse and summarize the MySQL slow query log. Options are 
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--verbose verbose 

--debug debug 

--help write this text to standard output 

-V verbose 

-d debug 

-s ORDER what to sort by (al, at, ar, c, l, r, t), 'at' is default 


al: average lock time 

ar: average rows sent 

at: average query time 
c: count 

1: lock time 

r: rows sent 


t: query time 


-r reverse the sort order (largest last instead of first) 
-t NUM just show the top n queries 

-a don't abstract all numbers to N and strings to 'S' 

-n NUM abstract numbers with at least n digits within names 


-g PATTERN grep: only consider stmts that include this string 

-h HOSTNAME hostname of db server for *-slow.log filename (can be wildcard), 
default is '*', i.e. match all 

-i NAME name of server instance (if using mysql.server startup script) 


-1 don't subtract lock time from total time 


如 果 我 们 想得到 锁定 时 间 最 长 的 10 条 SQL 语句 ， 可 以 运行 : 


[root@nh119-141 data]# /usr/local/mysql/bin/mysqldumpslow -s al -n 10 david.log 
Reading mysql slow query log from david.log 
Count: 5 Time=0.00s (0s) Lock=0.20s (1s) Rows=4.4 (22), Audition 
[Audition] @[192.168.30.108] 

SELECT OtherSN, State FROM wait_friend_info WHERE UserSN = N 


Count: 1 Time=0.00s (0s) Lock=0.00s (0s) Rows=1.0 (1), audition-kr[audition- 
kr]8[192.168.30.105) 
SELECT COUNT(N) FROM famverifycode WHERE UserSN-N AND verifycode-'S' 


MySQL 5.1 开 始 可 以 将 慢 查 询 的 日 志 记 录放 入 一 张 表 中 ， 这 使 我 们 的 查询 更 加 直观 。 
慢 查 询 表 在 mysql 架 构 下 ， 名 为 slow_log。 其 表 结 构 定 义 如 下 : 


mysql» show create table mysql.slow log; 


LESEKEEZEEEERSZEEEZEEZEEKERESREEEEEI l. LOW *k*kkk kk kckok k ck kc k kk kk kkkkkkk 


Table: slow log 
Create Table: CREATE TABLE 'slow log' ( 
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'start time' timestamp NOT NULL DEFAULT CURRENT TIMESTAMP ON UPDATE 
CURRENT TIMESTAMP, 
'user host' mediumtext NOT NULL, 
'query time' time NOT NULL, 
'lock time' time NOT NULL, 
'rows sent' int(11) NOT NULL, ® 
'rows examined' int(11) NOT NULL, 
'db' varchar(512) NOT NULL, 
'last insert id' int(11) NOT NULL, 
'insert id' int(11) NOT NULL, 
'server id' int(11) NOT NULL, 
'sql text' mediumtext NOT NULL 
) ENGINE-CSV DEFAULT CHARSET-utf8 COMMENT-'Slow log' 
1 row in set (0.00 sec) 


参数 log_output 指 定 了 慢 查 询 输 出 的 格式 ， 默 认为 FILE， 你 可 以 将 它 设 为 TABLE， 然 
后 就 可 以 查询 mysql 架 构 下 的 slow_log 表 了 ， 如 : 


mysql» show variables like 'log output'; 
+ 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 T--------- * 
| Variable name | Value | 


1 row in set (0.00 sec) 


mysql» set global log output-'TABLE'; 
Query OK, 0 rows affected (0.00 sec) 


mysql» show variables like 'log output'; 
+--------------- +--------- + 


| Variable name | Value | 


+--------------- +--------- + 
| log_output | TABLE | 
4--------------- +--------- + 


1 row in set (0.00 sec) 


mysql> select sleep(10); 


十 一 一 一 一 一 一 一 一 一 一 一 十 
| sleep(10) | 
— + 
| o | 
— * 


1 row in set (10.01 sec) 
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^ 
ta 
ii 


mysql> select * from mysql.slow log\G; 


ck oce ce ce ce ce ce ce ce ce ce ce ce cec ce ck ck ke Sk kc kc kc kok ok l. 
start time: 
user host: 
query time: 


lock time: 


row ck ck ockck ck ck ce ke ke ke ke kv ko ck ko sk ko ko ko ko ok oko kok ok 
2009-09-25 13:44:29 

david[david] 8 localhost [] 

00:00:09 

00:00:00 


rows sent: 1 
rows examined: 0 
db: mysql 
last insert id: 0 
insert id: 0 
server id: 0 
sql text: select sleep(10) 


1 row in set (0.00 sec) 


参数 1og_output 是 动态 的 ， 并 且 是 全 局 的 。 我 们 可 以 在 线 进行 修改 。 在 上 表 中 我 设置 了 
睡眠 (sleep) 10 秒 ， 那 么 这 名 SQL 语句 就 会 被 记录 到 slow_log 表 了 。 

查看 slow_log 表 的 定义 会 发 现 ， 该 表 使 用 的 是 CSV 引 擎 ， 对 大 数据 量 下 的 查询 效率 可 
能 不 高 。 我 们 可 以 把 slow_log 表 的 引 警 转换 到 MyISAM ， 用 来 进一步 提高 查询 的 效率 。 但 
是 ， 如 果 已 经 启动 了 慢 查 询 ， 将 会 提示 错误 : 


mysql» alter table mysql.slow log engine=myisam; 


ERROR 1580 (HY000): You cannot 'ALTER' a log table if logging is enabled 


mysql> set global slow query log-off; 


Query OK, 0 rows affected (0.00 sec) 


mysql» alter table mysql.slow log engine=myisam; 


Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


不 能 忽视 的 是 ， 将 slow_log 表 的 存储 引擎 更 改 为 MyISAM 后 ， 对 数据 库 还 是 会 造成 额 
外 的 开销 。 不 过 好 在 很 多 关于 慢 查 询 的 参数 都 是 动态 的 ， 我 们 可 以 方便 地 在 线 进行 设置 或 
者 修改 。 


3.2.3 查询 日 志 


查询 日 志 记录 了 所 有 对 MySQL 数 据 库 请 求 的 信息 ， 不 论 这 些 请 求 是 否 得 到 了 正确 的 执 
行 。 默 认 文件 名 为 :主机 名 .log。 我 们 查看 一 个 查询 日 志 : 
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[root@nineyou0-43 data]# tail nineyou0-43.log 


090925 11:00:24 44 Connect z1m8192.168.0.100 on 
44 Query SET AUTOCOMMIT=0 

44 Query set autocommit=0 

44 Quit 


090925 11:02:37 45 Connect Access denied for user 'root'8'localhost' (using 
password: NO) 

090925 11:03:51 46 Connect Access denied for user 'root'8'localhost' (using 
password: NO) 

090925 11:04:38 23 Query rollback 


通过 上 述 查 询 日 志 你 会 发 现 ， 查 询 日 志 甚至 记录 了 对 access denied 的 请 求 。 同 样 ， 从 
MySQL 5.1 开 始 ， 可 以 将 查询 日 志 的 记录 放 和 人 mysql 架构 下 的 general_log 表 ， 该 表 的 使 用 方 
法 和 前 面 小 节 提 到 的 slow_log 基 本 一 样 ， 这 里 不 再 更 述 。 


3.2.4 二 进 制 日 志 


二 进 制 日 志 记 录 了 对 数据 库 执行 更 改 的 所 有 操作 ， 但 是 不 包括 SELECT 和 SHOW 这 类 
操作 ， 因 为 这 类 操作 对 数据 本 身 并 没有 修改 ， 如 果 你 还 想 记录 SELECT 和 SHOW 操作 ， 那 
只 能 使 用 查询 日 志 ， 而 不 是 二 进 制 日 志 了 。 此 外 ， 二 进 制 还 包括 了 执行 数据 库 更 改 操 作 的 
时 间 和 执行 时 间 等 信息 。 二 进 制 日 志 主要 有 以 下 两 种 作用 : 

ORS (recovery)。 某 些 数 据 的 恢复 需要 二 进 制 日 志 ， 如 当 一 个 数据 库 全 备 文件 恢复 

后 ， 我 们 可 以 通过 二 进 制 日 志 进 行 point-in-time 的 恢复 。 

口 复制 (replication)。 其 原理 与 恢复 类 似 , 通过 复制 和 执行 二 进 制 日 志 使 得 一 台 远程 
的 MySQL 数 据 库 (一 般 称 为 slave 或 者 standby) 与 一 台 MySQL 数 据 库 (BA 
master 或 者 primary) 进行 实时 同步 。 

通过 配置 参数 log-bin[=name] 可 以 启动 二 进 制 日 志 。 如 果 不 指定 name， 则 默认 二 进 制 
日 志文 件 名 为 主机 名 ， 后 组 名 为 二 进 制 日 志 的 序列 号 ， 所 在 路 径 为 数据 库 所 在 目录 
(datadir), 40; 


mysgl» show variables like 'datadir'; 
+--------------- +---------------------------- + 
| variable name | value | 

+---+----------- 4--2-22-222222-2-22--2-2-2-2--22-2--- + 


| datadir | /usr/local/mysql/data/ | 
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十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一 ~ 一 一 一 + 


1 row in set (0.00 sec) 


mysql» system ls -lh /usr/local/mysql/data/; 


total 2.1G 
-rw-rw---- 
-rw-rw---- 
-rw-rw---- 
-rw-rw---- 
-rw-rw---- 


drwxr-xr-x 


1 
1 
1 
1 
1 
2 


mysql 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 


mysql 
mysql 
mysql 
mysql 
mysql 
mysql 
mysql 


6.5M Sep 

17 Sep 
300M Sep 
256M Sep 
256M Sep 
4.0K May 
4.0K May 


25 
25 
25 
25 
25 

7 

7 


15: 
00: 
15: 
15: 
15: 
10: 
10: 


这 里 的 bin_log.00001 即 为 二 进 制 日 志文 件 ， 


用 默认 的 文件 名 。bin_log.index 为 二 进 制 


号 ， 通 常情 况 下 ， 不 建议 手工 修改 这 个 文件 。 
二 进 制 日 志文 件 在 默认 情况 下 并 没有 启动 ， 需 要 你 手动 指定 参数 来 启动 。 可 能 有 人 会 
质疑 ， 开 启 这 个 选项 是 否 会 对 数据 库 整 体 性 能 有 所 影响 。 不 错 


性 能 ， 但 是 性 能 的 损失 十 分 有 限 。 根 据 MySQL 官 方 手册 中 的 测试 


13 
32 
13 
13 
13 
08 
09 


bin log.000001 
bin log.index 
ibdatal 

ib logfileO 

ib logfilel 
mysql 

test 


我 们 在 配置 文件 中 指定 了 名 称 ， 所 以 没有 


的 索引 文件 ， 用 来 存储 过 往生 产 的 二 进 制 日 志 序 


开启 这 个 选项 的 确 会 影响 
试 表明 ， 开 启 二 进 制 日 志 会 


使 得 性 能 下 降 1%。 但 考虑 到 可 以 使 用 复制 (replication) 和 point-in-time 的 恢复 ,这些 性 能 
损失 绝对 是 可 以 并 且 是 应 该 被 接受 的 。 — 
以 下 配置 文件 的 参数 影响 着 二 进 制 日 志 记 录 的 信息 和 行为 : 





O sync, binlog 
O binlog-do-db 


Lj max binlog. size 


O binlog cache size 


Q binlog-ingore-db 
DD log-slave-update 
O binlog format 

参数 max-binlog-size 指 定 了 单个 二 进 制 日 志文 件 的 最 大 值 ， 如 果 超 过 该 值 ， 


的 二 进 制 日 志文 件 ， 


1 073 741 824， 代 表 1GB (之 前 的 版 本 max-binlog-size 默 认 大 小 为 1.1GB ) 。 


后 组 名 +1， 
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则 产生 新 


并 记录 到 .index 文 件 。 从 MySQL 5.0 开 始 的 默认 值 为 
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当 使 用 事务 的 表 存 储 引擎 (如 InnoDB 存 储 引擎 ) 时 ， 所 有 未 提交 (uncommitted) 的 
二 进 制 日 志 会 被 记录 到 一 个 缓存 中 ， 等 该 事务 提交 时 (committed) 时 直接 将 缓冲 中 的 二 
进 制 日 志 写 入 二 进 制 日 志文 件 ， 而 该 缓冲 的 大 小 由 binlog_cache_size 决 定 ， 默 认 大 小 为 
32KB。 此 外 ，binlog_cache_size 是 基于 会 话 (session) 的 ， 也 就 是 说 ， 当 一 个 线程 开始 一 
个 事务 时 ，MySQL 会 自动 分 配 一 个 大 小 为 binlog_cache_size 的 缓存 ， 因 此 该 值 的 设置 需要 
相当 小 心 ， 不 能 设置 过 大 。 当 一 个 事务 的 记录 大 于 设 定 的 binlog_cache_size 时 ，MySQL 会 
把 缓冲 中 的 日 志 写 入 一 个 临时 文件 中 ， 因 此 该 值 又 不 能 设 得 太 小 。 通 过 SHOW GLOBAL 
STATUS 命令 查看 binlog_cache_use、binlog_cache_disk_use 的 状态 ,可 以 判断 当前 
binlog_cache_size 的 设置 是 否 合适 。Binlog_cache_use 记 录 了 使 用 缓冲 写 二 进 制 日 志 的 次 数 ， 
binlog_cache_disk_use 记 录 了 使 用 临时 文件 写 二 进 制 日 志 的 次 数 。 现 在 来 看 一 个 数据 库 的 


mysql» show variables like 'binlog cache size'; 
*----------2--------- +------- + 

| Variable name | value | 
*------------------- +------- + 

| binlog cache size | 32768 | 
*------------------- *------- + 


1 row in set (0.00 sec) 


mysql» show global status like 'binlog cache$'; 
+--~-------------------- 4+-~---~--------+ + 

| Variable name | Value | 

E 4+--------------- + 

| binlog_cache_disk_use | 0 | 

| binlog_cache_use | 33553 | 
+----------------------- 4---222---22--2--- + 


2 rows in set (0.00 sec) 


使 用 缓冲 次 数 33 553 次 ， 临 时 文件 使 用 次 数 为 0。 看 来 ，32KB 的 缓冲 大 小 对 于 当前 这 
个 MySQL 数 据 库 完 全 够 用 ， 所 以 暂时 没有 必要 增加 binlog_cache_size 的 值 。 

默认 情况 下 , 二 进 制 日 志 并 不 是 在 每 次 写 的 时 候 同 步 到 磁盘 (我 们 可 以 理解 为 缓冲 写 ) 。 
因此 ， 当 数据 库 所 在 操作 系统 发 生 宕 机 时 ， 可 能 会 有 最 后 一 部 分 数据 没有 写 入 二 进 制 日 志 
文件 中 。 这 会 给 恢复 和 复制 带 来 问题 。 参 数 sync_binlog=[N] 表 示 每 写 缓 促 多 少 次 就 同步 到 
磁盘 。 如 果 将 N 设 为 1， 即 sync_binlog=1 表 示 采 用 同步 写 磁 盘 的 方式 来 写 二 进 制 日 志 ， 这 
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时 写 操作 不 使 用 操作 系统 的 缓冲 来 写 二 进 制 日 志 。 该 默认 值 为 0， 如 果 使 用 InnoDB 存 储 引 
擎 进行 复制 ， 并 且 想 得 到 最 大 的 高 可 用 性 ， 建 议 将 该 值 设 为 ON。 不 过 该 值 为 ON 时 ， 确 实 
会 对 数据 库 的 IO 系统 带 来 一 定 的 影响 。 

但 是 ， 即 使 将 sync_binlog 设 为 1， 还 是 会 有 一 种 情况 会 导致 问题 的 发 生 。 当 使 用 
InnoDB 存 储 引 警 时， 在 一 个 事务 发 出 COMMIT 动 作 之 前 ， 由 于 sync_binlog 设 为 1， 因 此 会 
将 二 进 制 日 志 立 即 写 和 人 磁盘。 如 果 这 时 已 经 写 信 了 二 进 制 日 志 ， 但 是 提交 还 没有 发 生 ， 并 
且 此 时 发 生 了 宕 机 ， 那 么 在 MySQL 数 据 库 下 次 启动 时 ， 因 为 COMMIT 操 作 并 没有 发 生 ， 
所 以 这 个 事务 会 被 回 滚 掉 。 但 是 二 进 制 日 志 已 经 记录 了 该 事务 信息 ， 不 能 被 回 滚 。 这 个 问 
题 可 以 通过 将 参数 innodb_support_xa 设 为 1 来 解决 ， 虽 然 innodb_support_xa 与 XA 事务 有 关 ， 
但 它 同 时 也 确保 了 二 进 制 日 志和 InnoDB 存 储 引擎 数据 文件 的 同步 。 

参数 binlog-do-db 和 binlog-ignore-db 表 示 需 要 写 和 人 或 者 忽略 写 人 哪些 库 的 日 志 。 默 认为 
空 ， 表 示 需 要 将 所 有 库 的 日 志 同 步 到 二 进 制 日 志 。 

如 果 当 前 数据 库 是 复制 中 的 slave 角 色 ， 则 它 不 会 将 从 master 取 得 并 执行 的 二 进 制 日 志 
写 人 自己 的 二 进 制 日 志文 件 中 。 如 果 需 要 写 人 ， 则 需要 设置 log-slave-update。 如 果 你 需要 
搭建 master=>slave=>slave 架 构 的 复制 ， 则 必须 设置 该 参数 。 

binlog_format 参 数 十 分 重要 ， 这 影响 了 记录 二 进 制 日 志 的 格式 。 在 MySQL 5.1 版 本 之 
前 ， 没 有 这 个 参数 。 所 有 二 进 制 文件 的 格式 都 是 基于 SQL 语句 (statement) 级 别 的 ， 因 此 
基于 这 个 格式 的 二 进 制 日 志文 件 的 复制 (Replication) 和 Oracle 逻辑 Standby 有 点 相似 。 同 
时 ， 对 于 复制 是 有 一 定 要 求 的 如 rand、uuid 等 函数 ， 或 者 有 使 用 触发 器 等 可 能 会 导致 主 从 
服务 器 上 表 的 数据 不 一 致 (not sync), ， 这 可 能 使 得 复制 变 得 没有 意义 。 另 一 个 影响 是 ， 你 
会 发 现 InnoDB 存 储 引 警 的 默认 事务 隔离 级 别 是 REPEATABLE READ。 这 其 实 也 是 因为 二 
进 制 日 志文 件 格 式 的 关系 ， 如果 使 用 READ COMMITTED 的 事务 隔离 级 别 (大 多 数 数据 库 ， 
如 Oracle、Microsoft SQL Server 数 据 库 的 默认 隔离 级 别 ) 会 出 现 类 似 丢失 更 新 的 现象 ， 从 
而 出 现 主 从 数据 库 上 的 数据 不 一 致 。 

MySQL 5.1 开 始 引 入 了 binlog_format 参 数 ， 该 参数 可 设 的 值 有 STATEMENT、ROW 和 
MIXED, 

(1) STATEMENT 格 式 和 之 前 的 MySQL 版 本 一 样 ， 二 进 制 日 志文 件 记 录 的 是 日 志 的 逻 
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辑 SQL 语 句 。 

(2) 在 ROW 格式 下 ， 二 进 制 日 志 记录 的 不 再 是 简单 的 SQL 语 名 了， 而 是 记录 表 的 行 更 
改 情况 。 基 于 ROW 格式 的 复制 类 似 于 Oracle 的 物理 Standby (当然 ， 还 是 有 些 区 别 )。 同 时 ， 
对 于 上 述 提 及 的 Statement 格 式 下 复制 的 问题 给 予 了 解决 。MySQL 5.1 版 本 开始 ， 如 果 设 置 
了 binlog_format 为 ROW ， 你 可 以 将 InnoDB 的 事务 隔离 基本 设 为 READ COMMITTED, 以 
获得 更 好 的 并 发 性 。 

(3) MIXED 格 式 下 ，MySQL 默 认 采 用 STATEMENT 格 式 进 行 二 进 制 日 志文 件 的 记录 ， 
但 是 在 一 些 情况 下 会 使 用 ROW 格式 ， 可 能 的 情况 有 ; 

1) 表 的 存储 引擎 为 NDB ， 这 时 对 于 表 的 DML 操 作 都 会 以 ROW 格式 记录 。 

2) 使 用 了 7UUIDO、USERO、CURRENT_USERO、FOUND_ROWSO、ROW_COUNTO 
等 不 确定 函数 。 

3) 使 用 了 INSERT DELAY 语 句 。 

4) 使 用 了 用 户 定 义 函数 (UDF)。 

5) 使 用 了 临时 表 (temporary table), 

此 外 ，binlog_format 参 数 还 有 对 于 存储 引擎 的 限制 ， 如 表 3-1 所 示 。 

表 3-1 存储 引擎 二 进 制 日 志 格式 支持 情况 


存储 引擎 Row 格式 Statement 格 式 
InnoDB 支持 支持 
MyISAM 支持 支持 
HEAP 支持 支持 
MERGE 支持 支持 
NDB 支持 不 支持 
Archive 支持 支持 
CSV 支持 支持 
Federate 支持 支持 
Blockhole 不 支持 支持 


binlog_format 是 动态 参数 ， 因 此 可 以 在 数据 库 运 行 环境 下 进行 更 改 ， 例 如 ， 我 们 可 以 
将 当前 会 话 的 binlog_format 设 为 ROW n: 


mysql> set 88session.binlog format-'ROW'; 
Query OK, 0 rows affected (0.00 sec) 
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R 
[UN 
* 


mysql> select 88session.binlog format; 


1 row in set (0.00 sec) 


当然 ， 也 可 以 将 全 局 的 binlog_format 设 置 为 你 想 要 的 格式 。 不 过 通常 情况 下 ， 这 个 操 
作 可 能 会 带 来 问题 ， 运 行 时 ， 请 确保 更 改 后 不 会 对 你 的 复制 带 来 影响 。 如 ; 


mysql» set global binlog_format='ROW'; 
. Query OK, 0 rows affected (0.00 sec) 


mysql> select 88global.binlog format; 


1 row in set (0.00 sec) 


通常 情况 下 ， 我 们 将 参数 binlog_format 设 置 为 ROW ， 这 可 以 为 数据 库 的 恢复 和 复制 带 
来 更 好 的 可 靠 性 。 但 是 不 能 忽略 一 点 的 是 ， 这 会 带 来 二 进 制 文件 大 小 的 增加 ， 有 些 语句 下 
的 ROW 格 式 可 能 需要 更 大 的 容量 。 比 如 我 们 有 两 张 一 样 的 表 ， 大 小 都 为 100W ， 执 行 
UPDATE 操 作 ， 观 察 二 进 制 日 志 大 小 的 变化 : 


mysql» select @@session.binlog format\G; 
che ce he he ce eode ce ceo eee ce e eee e e e e e x 1. row e ce ehe hehe ode dede dee ce ce eode de dece ce ke ek kx xà xà 
@@session.binlog format: STATEMENT 


1 row in set (0.00 sec) 


mysql> show master status\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkkk ba row CEREZEEZERZZEZAEZZZZZA ZARA Li 
File: test.000003 
Position: 106 
Binlog_Do_DB: 
Binlog Ignore DB: 


1 row in set (0.00 sec) 


mysql> update tl set username-upper(username); 
Query OK, 89279 rows affected (1.83 sec) 
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Rows matched: 100000 Changed: 89279 Warnings: 0 


mysql> show master status\G; 
e ce ce oe nene eee e ke ERE ZE ZE KKK x x x x Ta row KEKKKEKKKKKKKKKKKKKKKKKKKKKK 
File: test.000003 
Position: 306 
Binlog Do DB: 
Binlog Ignore DB: 


1 row in set (0.00 sec) 


可 以 看 到 ， 在 binlog_format 格 式 为 STATEMENT 下 ， 执 行 UPDATE 语 名 二 进 制 日 志 
小 只 增加 了 200 字 节 〈306-106) 。 如 果 我 们 使 用 ROW 格式 ， 同 样 来 操作 (2 表 ， 可 以 看 到 : 


mysql» set session binlog format-'ROW'; 


Query OK, 0 rows affected (0.00 sec) 


mysql» show master status\G; 
LIZZZEZZEZEZZEZZZZEZIZZEZEZEZZZEXZEXZEI Te row LIXZZXZZZEZERZEREZEREZEREZEREZRZEEXI 
File: test.000003 
Position: 306 
Binlog Do DB: 
Binlog Ignore DB: 


1 row in set (0.00 sec) 


mysql» update t2 set username=upper (username); 
Query OK, 89279 rows affected (2.42 sec) 
Rows matched: 100000 Changed: 89279 Warnings: 0 


mysql> show master status\G; 


KKKKKKKKKKKKKKKKKKKKKKkKkkkkk La row RKXKKKKKKKKKKKKKKKKKKKKKKKKK 


File: test.000003 
Position: 13782400 
Binlog Do DB: 
Binlog Ignore DB: 


1 row in set (0.00 sec) 


这 时 你 会 惊讶 地 发 现 ， 同 样 的 操作 在 ROW 格式 下 竟然 需要 13 782 094 字 节 ， 二 进 制 日 
志文 件 差 不 多 增加 了 13MB ， 要 知道 2 表 的 大 小 也 不 超过 17MB 。 而 且 执 行 时 间 也 有 所 增加 
(这 里 我 设置 了 sync_binlog=1) 。 这 就 是 因为 ， 这 时 MySQL 数 据 库 不 再 将 逻辑 的 SQL 操作 
记录 到 二 进 制 日 志 ， 而 是 记录 对 于 每 行 的 更 改 记 录 信 息 。 

上 面 的 这 个 例子 告诉 我 们 ， 将 参数 binlog_format 设 置 为 ROW ， 对 于 磁盘 空间 要 求 有 了 
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一 定 的 增加 。 而 由 于 复制 是 采用 传输 二 进 制 日 志方 式 实现 的 ， 因 此 复制 的 网 络 开销 也 有 了 
增加 。 

二 进 制 日 志文 件 的 文件 格式 为 二 进 制 (好像 有 点 废话 ) ， 不 能 像 错 误 日 志文 件 ， 慢 查 
询 日 志文 件 用 cat、head、ftail 等 命令 来 查看 。 想 要 查看 二 进 制 日 志文 件 的 内 容 ， 须 通过 
MySQL 提 供 的 工具 mysqlbinlog。 对 于 STATEMENT 格 式 的 二 进 制 日 志文 件 ， 使 用 
mysqlbinlog 后 ， 看 到 就 是 执行 的 逻辑 SQL 语句 ， 如 : 


[root8nineyou0-43 data]# mysqlbinlog --start-position-203 test.000004 
/*140019 SET 88session.max insert delayed threads=0*/; 

#090927 15:43:11 server id 1 end log pos 376 Query thread id-188 
exec time-l error code-0 

SET TIMESTAMP-1254037391/*1*/; 

update t2 set username-upper(username) where id-1 

/[*1*/5 

# at 376 

#090927 15:43:11 server id 1 end log pos 403 Xid - 1009 
COMMIT/*!*/; 

DELIMITER ; 

# End of log file 

ROLLBACK /* added by mysqlbinlog */; 

/*150003 SET COMPLETION TYPE-8O0LD COMPLETION TYPE*/; 


update t2 set username-upper (username) where id=1， 这 个 可 以 看 到 日 志 的 记录 以 
SQL 语句 的 方式 (为 了 排版 的 方便 ， 省 去 了 一 些 开 始 的 信息 )。 在 这 个 情况 下 ，mysqlbinlog 
和 Oracle LogMiner 类 似 。 但 是 如 果 这 时 使 用 ROW 格式 的 记录 方式 ， 则 会 发 现 mysqlbinlog 
的 结果 变 得 “不 可 读 ”(unreadable) n: 


[root@nineyou0-43 data]# mysqlbinlog --start-position=1065 test.000004 

/*140019 SET 88session.max insert delayed threads-0*/; 

# at 1135 

# at 1198 

#090927 15:53:52 server id 1 end log pos 1198 Table map: 'member'.'t2' mapped 
to number 58 

#090927 15:53:52 server id 1 end log pos 1378 Update rows: table id 58 flags: 
STMT END F 


BINLOG ' 
EBq/ ShMBAAAAPWAAAK 4 EAAAAADOAAAAAAAAABM1 1 bWJ 1cgACdDIACgMPDw/+CgsPAQWKJAAOAEAA 
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/ gJAAAAA 

EBq/ShgBAAAAtAAAAGIFAAAQADOAAAAAAAEAC ////8A/AEAAAALYWxleDk5ODh5b3UEOX1vdSA3 
Y2JiMzIlMmJhNmI32T1jNDIyZmFjNTMzNGQyMjAl1NAFNLaCPAAAAAABjEnpxPBIAAADS8AQAAAAtB 
TEVYOTk4OFlPVQO5eW911DdjYmIzMjUyYmE2Y jdlOWMOMjJmYWM1MzMO0ZDIyMDUOAUOtpw8AAAAA 
AGMSenE8EgAA 

'/*1%/; 

# at 1378 

#090927 15:53:52 server id 1 end log pos 1405 Xid = 1110 

COMMIT/*1*/; 

DELIMITER ; 

# End of log file 

ROLLBACK /* added by mysqlbinlog */; 

/*150003 SET COMPLETION_TYPE=@OLD_COMPLETION_TYPE*/; 


我 们 看 不 到 执行 的 SQL 语句 ， 反 而 是 一 大 串 我 们 看 不 到 的 字符 。 其 实 只 要 加 上 参数 -v 
或 者 -vv， 就 能 清楚 地 看 到 执行 的 具体 信息 了 ，-vv 会 比 -v 多 显示 出 更 新 的 类 型 ， 这 次 我 们 
加 上 -vv 选项 ， 得 到 : 


[rooténineyou0-43 datal]# mysqlbinlog -vv  --start-position-1065 test.000004 
BINLOG ' 

EBq/ShMBAAAAPWAAAK 4 EAAAAADOAAAAAAAAABm1 1bWJ lcgACdDIACgMPDw/+CgsPAQwKJAAOAEAA 
/ gJAAAAA 
EBq/ShgBAAAAtAAAAGIFAAAQADOAAAAAAAEACV////8A/AEAAAALYWxleDk5O0Dh5b3UEOXlvdSA3 
Y2JiMzI1MmJhNmI3ZTljNDIyZmFjNTMzNGQyMjAlINAFNLaCPAAAAAABjEnpxPBIAAAD8AQAAAAtB 
TEVYOTKk40F1PVQQ5eW91IDdjYmIzMjUyYmE2Yjdl0WMOMjImYWM1MzM0ZDIyMDUOAUO0tpw8AAAAA 
AGMSenEB8EgAA 

"18/5; 

### UPDATE member.t2 

### WHERE 

### 81-1 /* INT meta-0 nullable-0 is null=0 */ 

### @2='david' /* VARSTRING(36) meta=36 nullable=0 is_null=0 */ 

### @3='family' /* VARSTRING(40) meta=40 nullable=0 is_null=0 */ 

### @4='7cbb3252ba6b7e9c422fac5334d22054' /* VARSTRING;64) meta=64 nullable=0 
is_null=0 */ 

### @5='M' /* STRING(2) meta=65026 nullable=0 is_null=0 */ 

### @6='2009:09:13' /* DATE meta=0 nullable=0 is null-0 */ 

### @7='00:00:00' /* TIME meta=0 nullable-0 is_null=0 */ 

LI @8='' /* VARSTRING(64) meta=64 nullable-0 is null-0 */ 

### @9=0 /* TINYINT meta-0 nullable-0 is null-0 */ 

### @10=2009-08-11 16:32:35 /* DATETIME meta=0 nullable=0 is_null=0 */ 
### SET 

### @1=1 /* INT meta=0 nullable=0 is_null=0 */ 


www.TopSage.com 


64 #3 


* 


### @2='DAVID' /* VARSTRING(36) meta=36 nullable=0 is_null=0 */ 

ttt @3=family /* VARSTRING(40) meta=40 nullable=0 is_null=0 */ 

35H88 84-'7cbb3252ba6b7e9c422£ac5334d22054' /* VARSTRING(64) meta-64 nullable=0 
is null-0 */ 

#44 @5='M' /* STRING(2) meta=65026 nullable=0 is_null=0 */ 

ttt @6='2009:09:13' /* DATE meta=0 nullable=0 is_null=0 */ 

#44 @7='00:00:00' /* TIME meta=0 nullable=0 is_null=0 */ 

ttt @8='' /* VARSTRING(64) meta=64 nullable-0 is_null=0 */ 

#44 @9=0 /* TINYINT meta=0 nullable=0 is_null=0 */ 

### @10=2009-08-11 16:32:35 /* DATETIME meta=0 nullable-0 is_nul1=0 */ 
# at 1378 

#090927 15:53:52 server id 1 end log pos 1405 Xid = 1110 

COMMIT/*!*/; 

DELIMITER ; 

# End of log file 

ROLLBACK /* added by mysqlbinlog */; 

/*150003 SET COMPLETION TYPE=@0LD COMPLETION TYPE*/; 


现在 mysqlbinlog 向 我 们 解释 了 具体 做 的 事情 。 可 以 看 到 ， 一 句 简单 的 update t2 set 
username=upper (username) where id=1 语 名 记录 为 了 对 于 整个 行 更 改 的 信息 ， 这 也 解释 
了 为 什么 前 面 我 们 更 新 了 10 万 行 的 数据 ， 在 ROW 格式 下 ， 二 进 制 日 志文 件 会 增 大 了 13MB。 


3.3 套 接 字 文件 


前 面 提 到 过 ，Unix 系 统 下 本 地 连接 MySQL 可 以 采用 Unix 域 套 接 字 方 式 ， 这 种 方式 需要 
一 个 套 接 字 (socke) 文件 。 套 接 字 文 件 可 由 参数 socket 控 制 。 一 般 在 /tmp 目 录 下 ， 名 为 
mysql.sock; 


mysql» show variables like ‘socket'\G; 


kkkkkkkkkkkkkkkkkkkkkkkkkkk 1l. LOW kk kk kk kk kk k k kk k k kk ek kk ek k kk kx 


Variable name: socket 
Value: /tmp/mysql.sock 


1 row in set (0.00 sec) 


34 pid 文 件 


当 MySQL 实 例 启动 时 ， 会 将 自己 的 进程 ID 写 入 一 个 文件 中 一 一 该 文件 即 为 pid 文 件 。 
该 文件 可 由 参数 pid_file 控 制 。 默 认 路 径 位 于 数据 库 目录 下 ， 文 件 名 为 主机 名 .pid。 
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mysql» show variables like 'pid file'\G; 
KKKKKKKKKKKKKKKKKKKXKKKKKKKK AK de COW kk kk kk kk kk kk k k k kk k kkektk kk 
Variable name: pid file 

Value: /usr/local/mysql/data/xen-server.pid 


1 row in set (0.00 ‘sec) 


3.5 表 结 构 定义 文件 


因为 MySQL 揪 件 式 存储 引擎 的 体系 结构 的 关系 ，MySQL 对 于 数据 的 存储 是 按照 表 的 ， 
所 以 每 个 表 都 会 有 与 之 对 应 的 文件 〈 对 比 SQL Server 是 按照 每 个 数据 库 下 的 所 有 表 或 索引 
都 存在 md 文件 中 ) 。 不 论 采用 何 种 存储 引擎 ，MySQL 都 有 一 个 以 frm 为 后 缀 名 的 文件 ， 这 
个 文件 记录 了 该 表 的 表 结构 定义 。 

frm 还 用 来 存放 视图 的 定义 ， 如 我 们 创建 了 一 个 v_a 视 图 ， 那 么 对 应 地 会 产生 一 个 
v_afrm 文 件 ， 用 来 记录 视图 的 定义 ， 该 文件 是 文本 文件 ， 可 以 直接 使 用 cat 命 令 进行 查看 ， 


[root@xen-server test]# cat v a.frm 
TYPE-VIEW 

query=select 'test'.'a'.'b' AS 'b' from 'test'.'a' 
md5=4eda70387716a4d6c96£3042dd68b742 
updatable=1 

algorithm=0 

definer user-root 

definer host-localhost 

suid-2 

with check option-0 
timestamp-2010-08-04 07:23:36 
create-version=1 | 

source=select * from a 
client cs name-utf8 
connection cl name-utf8 general ci 


view body utf8-select 'test'.'a'.'b' AS 'b' from 'test'.'a' 


3.6 InnoDB 存 储 引擎 文件 


之 前 介绍 的 文件 都 是 MySQL 数 据 库 本 身 的 文件 ， 和 存储 引擎 无 关 。 除 了 这 些 文件 外 ， 
每 个 表 存 储 引 擎 还 有 其 自己 独 有 的 文件 。 这 一 节 将 具体 介绍 和 InnoDB 存 储 引 擎 密切 相关 的 
文件 ， 这 些 文件 包括 重 做 日 志文 件 、 表 空间 文件 。 
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二 


3.6.1 表 空 间 文件 


InnoDB 存 储 引擎 在 存储 设计 上 模仿 了 Oracle， 将 存储 的 数据 按 表 空 间 进行 存放 。 默 认 
配置 下 ， 会 有 一 个 初始 化 大 小 为 1OMB 、 名 为 ibdatal 的 文件 。 该 文件 就 是 默认 的 表 空 间 文 
fF (tablespace file)。 你 可 以 通过 参数 innodb_data_file_path 对 其 进行 设置 。 格 式 如 下 : 


innodb data file path-datafile specl[;datafile spec2]... 


你 也 可 以 用 多 个 文件 组 成 一 个 表 空 间 ， 同 时 制定 文件 的 属性 ， 如 : 


[mysqld] 
innodb data file path = /db/ibdatal:2000M;/dr2/db/ibdata2:2000M:autoextend 


这 里 将 /db/ibdatal 和 /dr2/db/ibdata2 两 个 文件 用 来 组 成 表 空 间 。 若 这 两 个 文件 位 于 不 同 
的 磁盘 上 ， 则 可 以 对 性 能 带 来 一 定 程度 的 提升 。 两 个 文件 的 文件 名 后 都 跟 了 属性 ， 表 示 文 
件 idbdatal 的 大 小 为 2000MB ， 文 件 ibdata2 的 大 小 为 2000MB ， 但 是 如 果 用 满 了 这 2000MB 后 ， 
该 文件 可 以 自动 增长 (autoextend), 

设置 innodb_data_file_path 参 数 后 ， 之 后 对 于 所 有 基于 InnoDB 存 储 引 擎 的 表 的 数据 都 
会 记录 到 该 文件 内 。 而 通过 设置 参数 innodb_file_per_table， 我 们 可 以 将 每 个 基于 InnoDB 
存储 引擎 的 表单 独 产生 一 个 表 空 间 ， 文 件 名 为 表 名 .ibd， 这 样 不 用 将 所 有 数据 都 存放 于 默 
认 的 表 空 间 中 。 下 面 这 人 台 服 务 器 设置 了 innodb_file_per_table， 可 以 看 到 : 


mysql> show variables like 'innodb file per table'\G; 


kkk kkk kkk kkk kkk kkk kk kkk kkk 1. COW *XKXXXXXXXXXKXKXKKXXXKXXXxXxKxXxx% 
Variable name: innodb file per table 
Value: ON 


1 row in set (0.00 sec) 


mysql» system ls -lh /usr/local/mysql/data/member/* 


-rw-r----- 1 mysql mysql 8.7K 2009-02-24 /usr/local/mysql/data/member/ 
Profile.frm i 

-rw-r----- 1 mysql mysql 1.7G 95H 25 11:13 /usr/local/mysql/data/member/ 
Profile.ibd 

-rw-rw---- 1 mysql mysql 8.7K 9A 27 13:38 /usr/local/mysql/data/member/tl.frm 
-rw-rw---- 1 mysql mysql 17M 9H 27 13:40 /usr/local/mysql/data/member/tl.ibd 
-rw-rw---- 1 mysql mysql 8.7K 9H 27 15:42 /usr/local/mysql/data/member/t2.frm 
-rw-rw---- 1 mysql mysql 17M 9H 27 15:54 /usr/local/mysql/data/member/t2.ibd 


表 Profile、t1、t2 都 是 InnoDB 的 存储 引擎 ， 由 于 设置 参数 innodb_file_per_table=ON， 


www.TopSage.com 


xo d 67 | 


因此 产生 了 单独 的 ,ibd 表 空间 文件 。 需 要 注意 的 是 ， 这 些 单独 的 表 空 间 文 件 仅 存储 该 表 的 
数据 、 索 引 和 插入 缓冲 等 信息 ， 其 余 信 息 还 是 存放 在 默认 的 表 空 间 中 。 图 3-1 显 示 了 
InnoDB 存 储 引擎 对 于 文件 的 存储 方式 : 





i 


InnoDB Table ll 3 
Pop i aci 
presenta ir 


gna” z frm 
ibdatal 
innodb file per table 
ibd 


la C 




















图 3-1 InnoDB 表 存储 引擎 文件 


3.6.2 重 做 日 志文 件 


默认 情况 下 会 有 两 个 文件 ， 名 称 分 别 为 ib_logfile0O 和 ib_logfile1。MySQL 官 方 手册 中 将 
其 称 为 InnoDB 存 储 引擎 的 日 志文 件 ， 不 过 更 准确 的 定义 应 该 是 重 做 日 志文 件 (redo log 
file) 。 为 什么 强调 是 重 做 日 志文 件 昵 ? 因为 重 做 日 志文 件 对 于 InnoDB 存 储 引擎 至 关 重要 ， 
它们 记录 了 对 于 InnoDB 存 储 引擎 的 事务 日 志 。 
重 做 日 志文 件 的 主要 目的 是 ， 万 一 实例 或 者 介质 失败 (media failure) ， 重 做 日 志文 件 
就 能 派 上 用 场 。 如 数据 库 由 于 所 在 主机 掉 电 导致 实例 失败 ，InnoDB 存 储 引擎 会 使 用 重 做 日 
志 恢复 到 掉 电 前 的 时 刻 ， 以 此 来 保证 数据 的 完整 性 。 

“每 个 InnoDB 存 储 引擎 至 少 有 1 个 重 做 日 志文 件 组 (group) ， 每 个 文件 组 下 至 少 有 2 个 重 
做 日 志文 件 ， 如 默认 的 ib_logfile0、ib_logfile1。 为 了 得 到 更 高 的 可 靠 性 ， 你 可 以 设置 多 个 
镜像 日 志 组 (mirrored log groups) ， 将 不 同 的 文件 组 放 在 不 同 的 磁盘 上 。 日 志 组 中 每 个 重 
做 日 志文 件 的 大 小 一 致 ， 并 以 循环 方式 使 用 。InnoDB 存 储 引擎 先 写 重 做 日 志文 件 1， 当 达 
到 文件 的 最 后 时 ， 会 切换 至 重 做 日 志文 件 2， 当 重 做 日 志文 件 2 也 被 写 满 时 ， 会 再 切换 到 重 
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做 日 志文 件 1 中 。 图 3-2 显 示 了 一 个 拥有 3 个 重 做 日 志文 件 的 重 做 日 志文 件 组 。 


ib-logfilel 


ib-logfile3 ib-logfile2 





813-2 日 志文 件 组 


dilkicoodi Tog 和 innodb log files in group, innodb mirrored log groups, 
innodb_log_group_home_dir 影 响 着 重 做 日 志文 件 的 属性 。 参 数 innodb_log_file_size 指 定 了 
重 做 日 志文 件 的 大 小 ，innodb_log_files_in_group 指 定 了 日 志文 件 组 中 重 做 日 志文 件 的 数 
量 ， 默 认为 2，innodb_mirrored_log_groups 指 定 了 日 志 镜像 文件 组 的 数量 ， 默 认为 1， 代 表 
只 有 一 个 日 志文 件 组 , 没有 镜像 ，innodb_log_group_home_dir 指 定 了 日 志文 件 组 所 在 路 径 ， 
默认 在 数据 库 路 径 下 。 以 下 显示 了 一 个 关于 重 做 日 志 组 的 配置 : 


mysql» show variables like ‘innodb%log%'\G; 
c ke e e e e he he hee e e e he he e e e e e e e e d x x x ], COW Oe ke e e e e e e e e e e e e e e e de de de e e e 
Variable name: innodb flush log at trx commit 

Value: 1 
ce e hee ee e e e e e e e e e e ke e e e à kx xx 2, LOW *** o oe e dece ee hehe eoe he he he hee e fe e e e e x 
Variable name: innodb locks unsafe for binlog 

Value: OFF 
3e e e de ee e e e he e e he e e e he e he ee RE e x 3. LOW ee e e eoe oe e eoe eoe ehe oe e e e e e e de e 
Variable name: innodb log buffer size 

Value: 8388608 
3 ke e ee ee ee eode ee ee e e ee e e e e e e x x 4. LOW * dee e eoe ee eoe dee e ke he e e e e e e e x 
Variable name: innodb log file size 

Value: 5242880 
de e e e eee ee ee eee ee ee ee e à f à n x x 5. COW oe e e ke e ehe he e eoe e he e ee e e e e n A 
Variable name: innodb log files in group 

Value: 2 


3c oe ke e e e e e e echec e he e e e e e e e de ke ke 6, row 0C e ee e eee eee e e e e e e e e e e e e e 


Variable name: innodb log group home dir 
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Value: ./ 


koc kk kc kck k kk k kock ko ko kkokkkkkk 7. LOW FFKKXKKKXXXXKKKXKXKKKXKXKKkkk 
Variable name: innodb mirrored log groups 
Value: 1 


7 rows in set (0.00 sec) 


重 做 日 志文 件 的 大 小 设置 对 于 MySQL 数 据 库 各 方面 还 是 有 影响 的 。 一 方面 不 能 设置 得 
太 大 ， 如 果 设 置 得 很 大 ， 在 恢复 时 可 能 需要 很 长 的 时 间 ， 另 一 方面 又 不 能 太 小 了 ， 否 则 可 
能 导致 一 个 事务 的 日 志 需 要 多 次 切换 重 做 日 志文 件 。 在 错误 日 志 中 可 能 会 看 到 如 下 警告 : 


090924 11:39:44 InnoDB: ERROR: the age of the last checkpoint is 9433712, 
InnoDB: which exceeds the log group capacity 9433498. 

InnoDB: If you are using big BLOB or TEXT rows, you must set the 

InnoDB: combined size of log files at least 10 times bigger than the 
InnoDB: largest such row. 

090924 11:40:00 InnoDB: ERROR: the age of the last checkpoint is 9433823, 
InnoDB: which exceeds the log group capacity 9433498. 

InnoDB: If you are using big BLOB or TEXT rows, you must set the 

InnoDB: combined size of log files at least 10 times bigger than the 
InnoDB: largest such row. 

090924 11:40:16 InnoDB: ERROR: the age of the last checkpoint is 9433645, 
InnoDB: which exceeds the log group capacity 9433498. 

InnoDB: If you are using big BLOB or TEXT rows, you must set the 

InnoDB: combined size of log files at least 10 times bigger than the 


InnoDB: largest such row. 


上 面 错误 集中 在 InnoDB: ERROR: the age of the last checkpoint is 9433645,InnoDB: 
which exceeds the log group capacity 9433498 。 这 是 因为 重 做 日 志 有 一 个 capacity 变 量 ， 该 
值 代表 了 最 后 的 检查 点 不 能 超过 这 个 阐 值 ， 如 果 超 过 则 必须 将 缓冲 池 (innodb buffer pool) 
中 刷新 列表 (flush list) 中 的 部 分 脏 数据 页 写 回 磁盘 。 

也 许 有 人 会 问 ， 既 然 同 样 是 记录 事务 日 志 ， 那 和 我 们 之 前 的 二 进 制 日 志 有 什么 区 别 ? 
首先 ， 二进制 日 志 会 记录 所 有 与 MySQL 有 关 的 日 志 记 录 ， 包 括 InnoDB、MyISAM、Heap 
等 其 他 存储 引擎 的 日 志 。 而 InnoDB 存 储 引擎 的 重 做 日 志 只 记录 有 关 其 本 身 的 事务 日 志 。 其 
次 ， 记 录 的 内 容 不 同 ， 不 管 你 将 二 进 制 日 志文 件 记 录 的 格式 设 为 STATEMENT 还 是 ROW， 
又 或 者 是 MIXED ， 其 记录 的 都 是 关于 一 个 事务 的 具体 操作 内 容 。 而 InnoDB 存 储 引擎 的 重 
做 日 志文 件 记 录 的 关于 每 个 页 (Page) 的 更 改 的 物理 情况 (如 表 3-2 所 示 )。 此 外 ， 写 入 的 
时 间 也 不 同 ， 二 进 制 日 志文 件 是 在 事务 提交 前 进行 记录 的 ， 而 在 事务 进行 的 过 程 中 ， 不 断 
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有 重 做 日 志 条 目 (redo entry) 被 写 人 重 做 日 志文 件 中 。 
E BL LUC diu 








在 第 2 章 中 已 经 提 到 ， 对 于 写 入 重 做 日 志文 件 的 操作 不 是 直接 写 ， 而 是 先 写 入 一 个 重 


做 日 志 缓 冲 (redo log buffer) 中 ， 然 后 根据 按照 一 定 的 条 件 写 和 日志 文件 。 图 3-3 很 好 地 
表示 了 这 个 过 程 。 


重 做 日 志 组 


| h 





图 3-3 重 做 日 志 写 入 过 程 


上 面 提 到 了 从 日 志 缓 冲 写 入 磁盘 上 的 重 做 日 志文 件 是 按 一 定 条 件 的 ， 那 这 些 条 件 有 了 哪 
HE? 第 2 章 分 析 了 主线 程 (master thread)， 知 道 在 主线 程 中 每 秒 会 将 重 做 日 志 缓 冲 写 入 
磁盘 的 重 做 日 志文 件 中 ， 不 论 事 务 是 否 已 经 提交 。 另 一 个 触发 这 个 过 程 是 由 参数 innodb_ 
flush_log_at_trx_commit 控 制 ， 表示 在 提交 (commit) 操作 时 ， 处 理 重 做 日 志 的 方式 。 

参数 innodb_flush_log_at_trx_commit 可 设 的 值 有 0、1、2。0 代 表 当 提交 事务 时 ， 并 不 
将 事务 的 重 做 日 志 写 人 磁盘 上 的 日 志文 件 ， 而 是 等 待 主线 程 每 秒 的 刷新 。 而 1 和 2 不 同 的 地 
AEF: 1 是 在 commit 时 将 重 做 日 志 缓 冲 同步 写 到 磁盘 ，2 是 重 做 日 志 异 步 写 到 磁盘 ， 即 不 
能 完全 保证 commit 时 肯定 会 写 入 重 做 日 志文 件 ， 只 是 有 这 个 动作 。 


3.7 小 结 


本 章 介绍 了 与 MySQL 数 据 库 相 关 的 一 些 文件 ， 并 了 解 了 文件 可 以 分 为 MySQL 数 据 库 
文件 以 及 和 各 存储 引擎 有 关 的 文件 。 与 MySQL 数 据 库 有 关 的 文件 中 ， 错 误 文件 和 二 进 制 日 
志文 件 非 常 重要 。 当 MySQL 数 据 库 发 生 任何 错误 时 ，DBA 首 先 就 应 该 去 查看 错误 文件 ， 
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从 文件 提示 的 内 容 中 找 出 问题 的 所 在 。 当 然 ， 错 误 文件 不 仅 记录 了 错误 的 内 容 ， 也 记录 了 
警告 的 信息 ， 通 过 一 些 警 告 也 有 助 于 DBA 对 于 数据 库 和 存储 引擎 的 优化 。 

二 进 制 日 志 的 作用 非常 关键 ， 可 以 用 来 进行 point in time 的 恢复 以 及 复制 (replication) 
环境 的 搭建 。 因 此 ， 建 议 在 任何 时 候 时 都 启用 二 进 制 日 志 的 记录 。 从 MySQL 5.1 开 始 ， 二 
进 制 日 志 支持 STATEMENT、ROW、MIX 三 种 格式 ， 用 来 更 好 地 同步 数据 库 。DBA 应 该 十 
分 清楚 三 种 不 同 格式 之 间 的 差异 。 

本 章 的 最 后 介绍 了 和 InnoDB 存 储 引擎 相关 的 文件 ， 包 括 表 空间 文件 和 重 做 日 志文 件 。 

空间 文件 是 用 来 管理 InnoDB 存 储 引擎 的 存储 ， 分 为 共享 表 空 间 和 独立 表 空间 。 重 做 日 志 
非常 重要 ， 用 来 记录 InnoDB 存 储 引擎 的 事务 日 志 ， 也 因为 重 做 日 志 的 存在 ， 才 使 得 
InnoDB 存 储 引擎 可 以 提供 可 靠 的 事务 。 
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本 章 将 从 对 InnoDB 存 储 引 擎 表 的 基本 介绍 开始 ， 然 后 重点 分 析 表 的 物理 存储 特征 一 一 
数据 是 如 何 组 织 和 存放 的 。 简 单 来 说 ， 表 就 是 关于 特定 实体 的 数据 集合 ， 这 也 是 关系 型 数 
据 库 模 型 的 核心 。 


4.1 lnnoDB 存 储 引擎 表 类 型 


对 比 Oracle 支 持 的 各 种 表 类 型 ，InnoDB 存 储 引 擎 表 更 像 是 Oracle 中 的 索引 组 织 表 
(index organized tablje)。 在 InnoDB 存 储 引擎 表 中 ， 每 张 表 都 有 个 主键 ， 如 果 在 创建 表 时 没 
有 显 式 地 定义 主键 (Primary Key), ， 则 InnoDB 存 储 引擎 会 按 如 下 方式 选择 或 创建 主键 。 

口 首先 表 中 是 否 有 非 空 的 唯一 索引 (Unique NOT NULL) ， 如 果 有 ， 则 该 列 即 为 主键 。 

. 口 不 符合 上 述 条 件 ，InnoDB 存 储 引擎 自动 创建 一 个 6 个 字 节 大 小 的 指针 。 


4.2 InnoDB 逻 辑 存储 结构 


InnoDB 存 储 引 警 的 逻辑 存储 结构 和 Oracie 大 致 相同 ， 所 有 数据 都 被 逻辑 地 存放 在 一 个 
空间 中 ， 我 们 称 之 为 表 空间 (tablespace)。 表 空间 又 由 段 (segment), [X (extent)、 页 
(page) 组 成 。 页 在 一 些 文档 中 有 时 也 称 为 块 (block) ，InnoDB 存 储 引擎 的 逻辑 存储 结构 
大 致 如 图 4-1 所 示 。 


4.2.14 表 空 间 


空间 可 以 看 做 是 InnoDB 存 储 引擎 逻辑 结构 的 最 高 层 ， 所 有 的 数据 都 是 存放 在 表 空间 
中 。 第 3 章 中 已 经 介绍 了 默认 情况 下 InnoDB 存 储 引 擎 有 一 个 共享 表 空 间 ibdatal HN PA Be 
据 都 放 在 这 个 表 空间 内 。 如 果 我 们 启用 了 参数 innodb_file_per_table， 则 每 张 表 内 的 数据 可 
以 单独 放 到 一 个 表 空间 内 。 
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tablespace segment 


leaf node segment 
non-leaf node segment 










roll Pointer 


图 4-1 InnoDB 存 储 引擎 的 逻辑 存储 结构 





对 于 启用 了 innodb_file_per_table 的 参数 选项 ， 需 要 注意 的 是 ， 每 张 表 的 表 空 间 内 存放 
的 只 是 数据 、 索 引 和 插入 缓冲 ， 其 他 类 的 数据 ， 如 撤销 (Undo) 信息 、 系 统 事务 信息 、 二 
次 写 缓冲 (double write buffer) 等 还 是 存放 在 原来 的 共享 表 空 间 内 。 这 也 就 说 明了 另 一 个 
问题 : 即使 在 启用 了 参数 innodb_file_per_table 之 后 , 共享 表 空 间 还 是 会 不 断 地 增加 其 大 小 。 
现在 我 们 来 做 个 实验 ， 实 验 之 前 我 已 经 将 innodb_file_per_table 设 为 ON 了 ， 看 看 初始 共享 
表 空 间 文件 有 多 大 : 


mysql> show variables like 'innodb file per table'\G; 
3c e kc oe ehe e ee e e e e e e e e e e e e d kx x kx xx 1, COW AO e e e ke e e e e e e e e e e e e e e e e e e n 
Variable name: innodb file per table 
Value: ON 
1 row in set (0.00 sec) 


mysql» system ls -lh /usr/local/mysql/data/ib* 


-rw-rw---- 1 mysql mysql 58M Mar 11 13:58 /usr/local/mysql/data/ibdatal 
-rw-rw---- 1 mysql mysql 64M Mar 11 13:58 /usr/local/mysql/data/ib_logfile0 
-rw-rw---- 1 mysql mysql 64M Mar 11 13:58 /usr/local/mysql/data/ib logfilel 


可 以 看 到 ， 共 享 表 空间 ibdatal 的 大 小 为 5383M， 接 下 去 我 们 产生 Undo 操 作 ， 利 用 第 1 章 
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我 们 产生 的 mytest 表 ， 并 把 其 存储 引擎 更 改 为 InnoDB， 执 行 如 下 操作 : 


mysql> set autocommit=0; 
Query OK, 0 rows affected (0.00 sec) 


mysql» update mytest set salary=0; 
Query OK, 2844047 rows affected (19.47 sec) 


Rows matched: 2844047 Changed: 2844047 Warnings: 0 


mysql> system ls -lh /usr/local/mysql/data/ib* 


-rw-rw---- 1 mysql mysql 114M Mar 11 14:00 /usr/local/mysql/data/ibdatal 
-rw-rw---- 1 mysql mysql 64M Mar 11 14:00 /usr/local/mysql/data/ib_logfile0 
-rw-rw---- 1 mysql mysql 64M Mar 11 14:00 /usr/local/mysql/data/ib logfilel 


首先 将 自动 提交 设 为 0， 即 我 们 需要 显 式 提交 事务 (注意 ， 上 面 结束 时 我 们 并 没有 
commit 或 者 rollback 该 事务 ) 。 接 着 我 们 执行 会 产生 大 量 Undo 操 作 的 语 名 update mytest set 
salary=0， 完 成 后 我 们 再 观察 共享 表 空 间 ， 会 发 现 ibdatal 已 经 增长 到 了 114MB ， 这 就 说 明 
了 共享 表 空 间 中 还 包含 有 Undo 信 息 。 有 人 会 问 ， 如 果 我 rollback 这 个 事务 ，ibdatal 这 个 表 
空间 会 不 会 缩减 至 原来 的 38MB 大 小 ? 我 们 接 下 去 就 来 验证 : | 


mysql» rollback; 
Query OK, 0 rows affected (0.00 sec) 


mysql> system ls -lh /usr/local/mysql/data/ib* 


-rw-rw---- l mysql mysql 114M Mar 11 14:00 /usr/local/mysql/data/ibdatal 
-rw-rw---- 1 mysql mysql 64M Mar 11 14:00 /usr/local/mysql/data/ib_logfile0 
-rw-rw---- 1 mysql mysql 64M Mar 11 14:00 /usr/local/mysql/data/ib logfilel 


很 “可 惜 ”， 还 是 114MB ， 即 InnoDB 存 储 引擎 不 会 在 rollback 时 去 收缩 这 个 表 空 间 。 虽 
然 InnoDB 不 会 帮 你 回收 这 些 空间 ， 但 是 MySQL 会 自动 判断 这 些 Undo 信 息 是 否 需 要 ， 如 果 
不 需要 ， 则 会 将 这 些 空间 标记 为 可 用 空间 ， 供 下 次 Undo 使 用 。 回 想 一 下 我 们 在 第 2 章 中 提 
到 的 master thread 每 10 秒 会 执行 一 次 full purge 操 作 。 因 此 很 有 可 能 的 一 种 情况 是 ， 你 再 次 
执行 上 述 的 UPDATE 语 句 后 ， 会 发 现 ibdatal 不 会 再 增 大 了 ， 那 就 是 这 个 原因 了 。 

我 用 python 编 写 了 一 个 py_innodb_page_info 小 工具 ， 用 来 查看 表 空 间 中 各 页 的 类 型 和 
信息 ， 你 可 以 在 code.google.com 上 搜索 david-mysgl-tools 进 行 查找 。 使 用 方法 如 下 : 


[root@nineyou0-43 py]# python py innodb page info.py /usr/local/mysql/data/ibdatal 
Total number of page: 83584: 
Insert Buffer Free List: 204 
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Freshly Allocated Page: 5467 
Undo Log Page: 38675 

File Segment inode: 4 

B-tree Node: 39233 

File Space Header: 1 


可 以 看 到 共有 83 584 个 页 ， 其 中 插入 缓冲 的 空 采 列表 有 204 个 页 、5467 个 可 用 页 、 
38 675 个 Undo 页 、39 233 个 数据 页 ， 等 等 。 你 可 以 通过 添加 -v 参 数 来 查看 更 详细 的 内 容 。 
由 于 该 工具 还 在 开发 之 中 ,因此 并 不 保证 在 本 书 出 版 时 此 工具 最 终 显示 结果 的 变化 。 


4.2.2 E 


图 4-1 中 显示 了 表 空 间 是 由 各 个 段 组 成 的 ， 常 见 的 段 有 数据 段 、 索 引 段 、 回 溢 段 等 。 因 

为 前 面 已 经 介绍 过 了 InnoDB 存 储 引 擎 表 是 索引 组 织 的 (index organized), ， 因 此 数据 即 索 

， 索 引 即 数据 。 那 么 数据 段 即 为 B+ 树 的 页 节点 (图 4-1 的 leaf node segment) ， 索 引 段 即 
为 B+ 树 的 非 索引 节点 (图 4-1 的 non-leaf node segment), 

与 Oracle 不 同 的 是 ，InnoDB 存 储 引 擎 对 于 段 的 管理 是 由 引擎 本 身 完 成 ， 这 和 和 Oracle 的 
自动 段 空间 管理 (ASSM) 类 似 ， 没 有 手动 段 空 间 管 理 (MSSM) 的 方式 ， 这 从 一 定 程度 
上 简化 了 DBA 的 管理 。 

需要 注意 的 是 ， 并 不 是 每 个 对 象 都 有 段 。 因 此 更 准确 地 说 ， 表 空间 是 由 分 散 的 页 和 段 
组 成 。 

4.2.3 区 


区 是 由 64 个 连续 的 页 组 成 的 ， 每 个 页 大 小 为 16KB ， 即 每 个 区 的 大 小 为 1IMB 。 对 于 大 
的 数据 段 ，InnoDB 存 储 引 擎 最 多 每 次 可 以 申请 4 个 区 ， 以 此 来 保证 数据 的 顺序 性 能 

但 是 ， 这 里 还 有 这 样 一 个 问题 : 在 我 们 启用 了 参数 innodb_file_per_talbe 后 ， 创 建 的 表 
默认 大 小 是 96KB。 区 是 64 个 连续 的 页 ， 那 创建 的 表 的 大 小 至 少 是 1MB 才 对 啊 ? 其 实 这 是 因 
为 在 每 个 段 开 始 时 ， 先 有 32 个 页 大 小 的 碎片 页 (fragment page) 来 存放 数据 ， 当 这 些 页 使 用 
完 之 后 才 是 64 个 连续 页 的 申请 。 这 里 通过 一 个 实验 来 显示 InnoDB 存 储 引 擎 对 于 区 的 申请 ; 


mysql>create table ti ( 


coll int not null auto increment, 
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col2 varchar(7000) , 


primary key (coll))engine=InnoDB; 


mysql> system ls -lh /usr/local/mysql/data/test/tl.ibd; 
-rw-rw---- 1 mysql mysql 96K 10H 12 14:59 /usr/local/mysql/data/test/tl.ibd 


我 们 创建 了 t1 表 ，col2 字 段 设 为 varchar (7000)， 这 样 能 保证 一 个 页 中 可 以 存放 2 条 记 
录 。 可 以 看 到 ， 初 始 创 建 完 tl 后 表 空 间 默 认 大 小 为 96KB ， 接 着 运行 如 下 SQL 语 句 : 


mysql» insert into tl select NULL,repeat('a',7000); 
Query OK, 1 row affected (0.04 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql» insert into tl select NULL,repeat('a',7000); 
Query OK, 1 row affected (0.01 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> system ls -lh /usr/local/mysql/data/test/tl.ibd; 
-rw-rw---- 1 mysql mysql 96K 10H 12 16:24 /usr/local/mysql/data/test/tl.ibd 


插入 两 条 记录 ， 这 两 条 记录 应 该 在 一 个 页 中 。 如 果 用 py_innodb_page_info 工 具 来 查看 
表 空 间 ， 可 以 看 到 : 


[root@nineyou0-43 py]# ./py innodb page info.py -v /usr/local/mysql/data/test/tl.ibd 
page offset 00000000, page type «File Space Header» 

page offset 00000001, page type «Insert Buffer Bitmap» 

page offset 00000002, page type «File Segment inode» 

page offset 00000003, page type «B-tree Node», page level «0000» 
page offset 00000000, page type <Freshly Allocated Page> 

page offset 00000000, page type <Freshly Allocated Page> 

Total number of page: 6: 

Freshly Allocated Page: 2 

Insert Buffer Bitmap: 1 

File Space Header: 1 

B-tree Node: 1 

File Segment inode: 1 


这 次 我 用 -v 详 细 模式 来 看 表 空 间 的 内 容 ， 注 意 到 了 page offset 为 3 的 页 ， 这 个 就 是 数据 
Ji, page level 表 示 所 在 索引 层 ，0 表 示 叶 节点 。 因 为 当前 所 有 记录 都 在 一 个 页 中 ， 因 此 没 
有 非 叶 节点 。 但 是 如 果 这 时 我 们 再 播 入 一 条 记录 ， 就 会 产生 一 个 非 页 节点 了 : 


mysql» insert into tl select NULL,repeat('a' FO 
Query OK, 1 row affected (0.01 sec) 
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Duplicates: 0 Warnings: O 


[rooténineyou0-43 py]# ./py innodb page info.py -v /usr/local/mysql/data/test/tl.ibd 


page 
page 
page 
page 
page 
page 


offset 
offset 
offset 
offset 
offset 
offset 


00000000, 
00000001, 


00000002, 


00000003, 
00000004, 
00000005, 


Total number of page: 


Insert Buffer Bitmap: 


File Space Header: 1 


B-tree Node: 


File Segment inode: 


3 


1 


page type 
page type 
page type 
page type 
page type 
page type 
6: 

1 


<File Space Header> 

<Insert Buffer Bitmap> 

<File Segment inode> 

<B-tree Node>, page level <0001> 
<B-tree Node>, page level <0000> 
<B-tree Node>, page level <0000> 


现在 我 们 可 以 看 到 page level 是 1 的 页 了 ， 但 这 个 页 的 类 型 还 是 B-tree Node, REF 
插入 60 条 记录 ， 也 就 是 说 一 共有 63 条 记录 ， 共 32 个 页 ， 在 这 之 前 先 建立 一 个 导 人 的 存储 


过 程 : 


mysql>delimieter // 


mysq 


Quer 


1» create procedure load tl(count int unsigned) 


-» begin 


-> declare s int unsigned default 1; 


-» declare c varchar(7000) default repeat('a',7000); 


-» while s <= count do 


-» insert into tl select NULL,c; 


-> set s 


= stlj 


-» end while; 


-> end; 


-> // 


y OK, 0 rows affected (0.04 sec) 


mysql> delimiter ; 


mysql> call load_t1(60); 


Quer 


y OK, 


1 row affected (1.59 sec) 


mysql> select count(*) from t1\G; 


okckckckckock kockckckockckckok kckockck kc kc ck k ko ko kk 1. row kkkkkkkkkkkkkkkkkkkkkkkkkkk 


coun 


t(*): 63 


1 row in set (0.00 sec)1 row in set (0.00 sec) 
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mysql> system ls -lh /usr/local/mysql/data/test/tl.ibd; 
-rw-rw---- 1 mysql mysql 576K 10A 12 16:56 /usr/local/mysql/data/test/tl.ibd 


可 以 看 到 ， 在 导入 了 63 条 数据 后 ， 数 据 空间 的 申请 还 是 通过 碎片 区 ， 而 不 是 通过 64 个 
连续 页 的 区 。 这 时 如 果 用 py_innodb_page_info 工 具 再 来 看 表 空 间 文 件 ， 可 得 : 


[rooténineyou0-43 py]# ./py innodb page info.py -v /usr/local/mysql/data/test/tl.ibd 
page offset 00000000, page type «File Space Header» 

page offset 00000001, page type «Insert Buffer Bitmap» 

page offset 00000002, page type «File Segment inode» 

page offset 00000003, page type <B-tree Node», page level «0001» 
page offset 00000004, page type «B-tree Node», page level «0000» 
page offset 00000005, page type «B-tree Node», page level «0000» 
page offset 00000006, page type «B-tree Node», page level «0000» 
page offset 00000007, page type «B-tree Node», page level «0000» 
page offset 00000008, page type <B-tree Node», page level «0000» 
page offset 00000009, page type <B-tree Node», page level «0000» 
page offset 0000000a, page type «B-tree Node», page level «0000» 
page offset 0000000b, page type «B-tree Node», page level «0000» 
page offset 0000000c, page type «B-tree Node», page level «0000» 
page offset 0000000d, page type «B-tree Node», page level «0000» 
page offset 0000000e, page type «B-tree Node», page level «0000» 
page offset 0000000f, page type <B-tree Node», page level «0000» 
page offset 00000010, page type «B-tree Node», page level «0000» 
page offset 00000011, page type «B-tree Node», page level «0000» 
page offset 00000012, page type «B-tree Node», page level «0000» 
page offset 00000013, page type «B-tree Node», page level «0000» 
page offset 00000014, page type «B-tree Node», page level «0000» 
page offset 00000015, page type «B-tree Node», page level «0000» 
page offset 00000016, page type «B-tree Node», page level «0000» 
page offset 00000017, page type «B-tree Node», page level «0000» 
page offset 00000018, page type <B-tree Node», page level «0000» 
page offset 00000019, page type «B-tree Node», page level «0000» 
page offset 0000001a, page type «B-tree Node», page level «0000» 
page offset 0000001b, page type «B-tree Node», page level «0000» 
page offset 0000001c, page type «B-tree Node», page level «0000» 
page offset 0000001d, page type «B-tree Node», page level «0000» 
page offset 0000001e, page type «B-tree Node», page level «0000» 
page offset 0000001f, page type «B-tree Node», page level «0000» 
page offset 00000020, page type «B-tree Node», page level «0000» 
page offset 00000021, page type <B-tree Node», page level «0000» 
page offset 00000022, page type «B-tree Node», page level «0000» 
page offset 00000023, page type «B-tree Node», page level «0000» 
Total number of page: 36: 
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Insert Buffer Bitmap: 1 
File Space Header: 1 
B-tree Node: 33 


File Segment inode: 1 


你 可 以 注意 到 page level 等 于 0 的 页 有 32 个 ， 也 就 是 说 ， 对 于 数据 段 ， 已 经 有 32 个 碎片 
页 了 ,之 后 表 空间 的 申请 是 连续 的 64 个 页 的 大 小 开始 增长 了 。 好 的 ， 接 着 我 们 就 这 样 来 做 ， 
插入 一 条 数据 ， 看 之 后 表 空 间 的 大 小 : 


mysql> call load t1(1); 
Query OK, 1 row affected (0.10 sec) 


mysql> system ls -lh /usr/local/mysql/data/test/tl.ibd; 
-rw-rw---- 1 mysql mysql 2.0M 10H 12 17:02 /usr/local/mysql/data/test/tl.ibd 


因为 已 经 用 完了 32 个 碎片 页 ， 新 的 页 会 采用 区 的 方式 进行 空间 的 申请 ， 如 果 我 们 再 用 
py_innodb_page_info 工 具 来 看 表 空 间 文 件 t1.ibd， 应 该 可 以 看 到 很 多 页 的 类 型 为 Freshly 
Allocated Page: 


[root@nineyou0-43 test2]# -/py/py innodb page info.py tl.ibd -v 

page offset 00000000, page type «File Space Header- 

page offset 00000001, page type «Insert Buffer Bitmap- 

page offset 00000002, page type «File Segment inode> 

page offset 00000003, page type «B-tree Node», page level «0001» 
page offset 00000004, page type «B-tree Node», page level «0000» 
page offset 00000005, page type «B-tree Node», page level «0000» 
page offset 00000006, page type «B-tree Node», page level «0000» 
page offset 00000007, page type «B-tree Node», page level «0000» 
page offset 00000008, page type «B-tree Node», page level «0000» 
page offset 00000009, page type «B-tree Node>, page level <0000> 
page offset 0000000a, page type <B-tree Node>, page level «0000» 
page offset 0000000b, page type «B-tree Node», page level «0000» 
page offset 0000000c, page type «B-tree Node», page level «0000» 
page offset 0000000d, page type «B-tree Node», page level «0000- 
page offset 0000000e, page type «B-tree Node», page level «0000» 
page offset 0000000f, page type «B-tree Node», page level «0000» 
page offset 00000010, page type «B-tree Node», page level «0000» 
page offset 00000011, page type «B-tree Node», page level «0000» 
page offset 00000012, page type «B-tree Node>, page level «0000» 
page offset 00000013, page type «B-tree Node>, page level «0000» 
page offset 00000014, page type «B-tree Node», page level «0000» 
page offset 00000015, page type «B-tree Node», page level «0000- 
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page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 


offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 
offset 


00000016, 
00000017, 
00000018, 
00000019, 
0000001a, 
0000001b, 
0000001c, 
0000001d, 
0000001e, 
0000001f, 
00000020, 
00000021, 
00000022, 
00000023, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000000, 
00000040, 
00000000, 


page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 
page 


type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
type 
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«B-tree Node», 
«B-tree Node», 
«B-tree Node», 
«B-tree Node», 
«B-tree Node», 
«B-tree Node», 
«B-tree Node», 
<B-tree Node», 
<B-tree Node», 
<B-tree Node», 
<B-tree Node», 
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page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
page offset 00000000, page type <Freshly Allocated Page> 
Total number of page: 128: 

Freshly Allocated Page: 91 

Insert Buffer Bitmap: 1 

File Space Header: 1 

B-tree Node: 34 


File Segment inode: 1 


4.2.4 页 


同 大 多 数 数 据 库 一 样 ，InnoDB 有 页 (page) 的 概念 (也 可 以 称 为 块 )， 页 是 InnoDB 磁 
盘 管理 的 最 小 单位 。 与 Oracle 类 似 的 是 ，Microsoft SQL Server 数 据 库 默认 每 页 大 小 为 8KB， 
不 同 于 InnoDB 页 的 大 小 (16KB)， 且 不 可 以 更 改 (也 许 通过 更 改 源码 可 以 )。 
常见 的 页 类 型 有 : 
口 数 据 页 (B-tree Node)。 
口 Undo 页 (Undo Log Page), 
口 系统 页 (System Page)。 
口 事务 数据 页 (Transaction system Page)。 i 
口 插入 缓冲 位 图 页 (Insert Buffer Bitmap), 
O 插入 缓冲 空闲 列表 页 (Insert Buffer Free List), 
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O 未 压缩 的 二 进 制 大 对 象 页 (Uncompressed BLOB Page), 
O 压缩 的 二 进 制 大 对 象 页 (Compressed BLOB Page), 


4.2.5 17 


InnoDB 存 储 引 擎 是 面向 行 的 (row-oriented) ， 也 就 是 说 数据 的 存放 按 行进 行 存放 。 每 
个 页 存放 的 行 记录 也 是 有 硬性 定义 的 ， 最 多 允许 存放 16KB / 2 ~ 200 行 的 记录 ， 即 7992 行 
记录 。 这 里 提 到 面向 行 (row-oriented) 的 数据 库 ， 那 么 也 就 是 说 ， 还 存在 有 面向 列 
(column-orientied) 的 数据 库 。MySQL infobright 储 存 引 警 就 是 按 列 来 存放 数据 的 ， 这 对 
于 数据 仓库 下 的 分 析 类 SQL 语句 的 执行 以 及 数据 压缩 很 有 好 处 。 类 似 的 数据 库 还 有 Sybase 
IQ、Google Big Table。 面 向 列 的 数据 库 是 当前 数据 库 发 展 的 一 个 方向 ， 但 是 这 超出 了 本 
书 涵盖 的 内 容 。 有 兴趣 的 读者 可 以 在 网 上 寻找 相关 资料 。 


4.3 InnoDB 物 理 存 储 结构 


从 物理 意义 上 来 看 ，InnoDB 表 由 共享 表 空 间 、 日 志文 件 组 (更 准确 地 说 ， 应 该 是 Redo 
文件 组 ) 、 表 结构 定义 文件 组 成 。 若 将 innodb_file_per_table 设 置 为 on， 则 每 个 表 将 独立 地 
产生 一 个 表 空 间 文件 ， 以 ibd 结 尾 ， 数 据 、 索 引 、 表 的 内 部 数据 字典 信息 都 将 保存 在 这 个 单 
独 的 表 空 间 文 件 中 。 表 结构 定义 文件 以 frm 结 尾 ， 这 个 是 与 存储 引擎 无 关 的 ， 任 何 存储 引 
擎 的 表 结构 定义 文件 都 一 样 ， 为 .frm 文 件 。 


4.4 InnoDB 行 记录 格式 


InnoDB 存 储 引 敬 和 大 多 数 数据 库 一 样 (如 Oracle 和 Microsoft SQL Server 数 据 库 ) id 
录 是 以 行 的 形式 存储 的 。 这 意味 着 页 中 保存 着 表 中 一 行 行 的 数据 。 到 MySQL 5.1 时 ， 
InnoDB 存 储 引 擎 提供 了 Compact 和 Redundant 两 种 格式 来 存放 行 记录 数据 ，Redundant 是 为 
兼容 之 前 版 本 而 保留 的 ， 如 果 你 阅读 过 InnoDB 的 源 代 码 ， 会 发 现 源 代 码 中 是 用 PHYSICAL 
RECORD (NEW STYLE) 和 PHYSICAL RECORD (OLD STYLE) 来 区 分 两 种 格式 的 。 
MySQL 5.1 默 认 保存 为 Compact 行 格式 。 你 可 以 通过 命令 SHOW TABLE STATUS LIKE 
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table_name' 来 查看 当前 表 使 用 的 行 格式 ， 其 中 row_format 就 代表 了 当前 使 用 的 行 记 录 结 构 
类 型 。 例 如 ， 


mysql» show table status like 'mytest%'\G; 


LÉZZEXEZZERERZZEZZZSEREZEERIIZIEEII 1s 


row LIXZZZXZEZZEZZIZZZZZZXZEZZIIZIZZICIEIELI 


Name: 

Engine: 
Version: 

Row format: 
Rows: 

Avg row length: 
Data length: 
Max data length: 
Index length: 
Data free: 

Auto increment: 
Create time: 
Update time: 
Check time: 
Collation: 
Checksum: 
Create options: 
Comment: 


IZESEZEZEEZEZEZERZEEZESEEZERI 24 


Name: 

Engine: 
Version: 

Row format: 
Rows: 

Avg row length: 
Data length: 
Max data length: 
Index length: 
Data free: 

Auto increment: 
Create time: 
Update time: 
Check time: 
Collation: 
Checksum: 
Create options: 
Comment: 


mytest 

InnoDB 

10 

Compact 

6 

2730 

16384 

0 

0 

0 

NULL 

2009-03-17 13:33:50 
NULL 

NULL 

latinl swedish ci 
NULL 


LOW **x*kxkdk kk kk k ko ko ko k ko k kkkkkkkkkkXk 


mytest2 

InnoDB 

10 

Redundant 

0 

0 

16384 

0 

0 

0 

NULL 

2009-03-17 13:57:23 
NULL 

NULL 

latinl swedish ci 
NULL 

row format-REDUNDANT 


2 rows in set (0.00 sec) 
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可 以 看 到 ， 这 里 的 mytest1 表 是 Compact 的 行 格 式 ，mytest2 表 是 Redundant 的 行 格式 。 
数据 库 实 例 的 一 个 作用 就 是 读 取 页 中 存放 的 行 记 录 。 如 果 我 们 知道 规则 ， 那 么 也 可 以 读 取 
其 中 的 记录 ， 如 之 前 的 py_innodb_page_info 工 具 。 下 面 将 具体 分 析 各 格式 存放 数据 的 规则 。 


4.4.1 Compact 行 记 录 格 式 

Compact 行 记录 是 在 MySQL 5.0 时 被 引入 的 ， 其 设计 目标 是 能 高 效 存 放 数 据 。 简 单 
来 说 ， 如 果 一 个 页 中 存放 的 行 数据 越 多 ， 其 性 能 就 越 高 。Compact 行 记录 以 如 下 方式 进 
行 存储 : 





变 长 字段 长 度 列表 | NULL 标 志 位 记录 头 信息 列 1 数据 列 2 数据 | 


























图 4-2 Compact 行 记录 格式 


从 图 4-2 可 以 看 到 ，Compact 行 格式 的 首部 是 一 个 非 NULL 变 长 字段 长 度 列 表 ， 而 且 是 
按照 列 的 顺序 逆序 放置 的 。 当 列 的 长 度 小 于 255 字 节 ， 用 1 字 节 表示 ， 若 大 于 255 个 字 节 ， 
用 2 个 字 节 表示 ， 变 长 字段 的 长 度 最 大 不 可 以 超过 2 个 字 节 (这 也 很 好 地 解释 了 为 什么 
MySQL 中 varchar 的 最 大 长 度 为 65 535， 因 为 2 个 字 节 为 16 位 ， 即 215=1=65 535)。 第 二 个 部 
分 是 NULL 标 志 位 ， 该 位 指示 了 该 行 数据 中 是 否 有 NULL 值 ， 用 1 表示 。 该 部 分 所 占 的 字 节 
应 该 为 bytes。 接 下 去 的 部 分 是 为 记录 头 信息 (record header)， 固 定 占用 5 个 字 节 (40 位 )， 
每 位 的 含义 见 表 4-1。 最 后 的 部 分 就 是 实际 存储 的 每 个 列 的 数据 了 ， 需 要 特别 注意 的 是 ， 
NULL 不 占 该 部 分 任何 数据 ， 即 NULL 除 了 占有 NULL 标 志 位 ， 实 际 存储 不 占有 任何 空间 。 
另外 有 一 点 需要 注意 的 是 ， 每 行 数据 除了 用 户 定义 的 列 外 ， 还 有 两 个 隐藏 列 ， 事 务 ID 列 和 
回 滚 指针 列 ， 分 别 为 6 个 字 节 和 7 个 字 节 的 大 小 。 若 InnoDB 表 没有 定义 Primary Key， 每 行 
还 会 增加 一 个 6 字 节 的 RowID 列 。 


34-1 Compact 页 格式 


名 称 大 小 (bit) 描述 
0 1 KAI 
0 1 X 
deleted flag 1 该 行 是 否 已 被 删除 
min rec flag 1 为 1， 如 果 该 记录 是 预先 被 定义 为 最 小 的 记录 
n_owned 4 该 记录 拥有 的 记录 数 
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(28) 
名 称 大 小 (bit) 描述 
heap_no 13 索引 堆 中 该 条 记录 的 排序 记录 
record type 3 记录 类 型 000= 普 通 001=B+ 树 节点 指针 010= Infimum 0112 Supremum 1xx= 保 留 
next_recorder 16 页 中 下 一 条 记录 的 相对 位 置 





下 面 用 一 个 具体 事例 来 分 析 Compact 行 记录 的 内 部 结构 : 


mysql>create table mytest ( tl varchar(10),t2 varchar(10),t3 char(10),t4 
varchar(10)) engine-innodb charset-latinl row format-compact; 


Query OK, 0 rows affected (0.00 sec) 


mysql» insert into mytest values ('a','bb','bb','ccc'); 
Query OK, 1 row affected (0.01 sec) 


mysql> insert into mytest values ('d','ee','ee', fff'); 
Query OK, 1 row affected (0.00 sec) 


mysql> insert into mytest values ('d',NULL,NULL,'fff'); 
Query OK, 1 row affected (0.00 sec) 


mysql> select * from mytest\G; 

occ ook ok oko ook ko ko ko ko kock ck ock ck kckck ok 14 LOW kk kk kk kk kk ck kckck ck ckck kokokck ok kk ok 
tl: a 

t2: bb 

t3: bb 

t4: ccc 

REKKKKEKKEKEKKKKKKEKKKKKEKKKKEKKK 2. COW X kk kk kk kk kk kk kk k k kk kkkkk 
ti: d 

t2: ee 

t3: ee 

t4: fff 

e eoe e ce cede oe oe ee e ce ck e e ck ke e e e ck kk kx koX 3. LOW FKKKKKKKKKKKKKKKKKK KAKA k k kx kx 
tl: d 

t2: NULL 

t3: NULL 

t4: fff 


3 rows in set (0.00 sec) 


我 们 创建 了 mytest 表 ， 有 4 个 列 ，tl1、t2、t4 都 为 varchar 变 长 字段 类 型 ，t3 为 固定 长 度 
类 型 char。 接 着 我 们 插入 了 3 条 有 代表 性 的 数据 ， 接 着 打开 mytest.ibd (我 启用 了 
innodb_file_per_table， 若 你 没有 局 用 该 选项 ， 请 打开 默认 的 共享 表 空 间 文件 ibdatal ) 。 在 
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Windows 下 ， 可 以 选择 用 UltraEdit 打 开 该 二 进 制 文件 〈 在 Linux 环 境 下 ， 使 用 hexdump -C - 
v mytest.ibd > mytest.txt 即 可 )， 打 开 mytest.txt 文 件 ， 找 到 如 下 内 容 : 


0000c070 73 75 70 72 65 6d 75 6d 03 02 01 00 00 00 10 00 |supremum........ | 
0000c080 2c 00 00 00 2b 68 00 00 00 00 00 06 05 80 00 00 |,...+h.........> 
0000c090 00 32 01 10 61 62 62 62 62 20 20 20 20 20 20 20 |.2..abbbb | 
0000c0a0 20 63 63 63 03 02 01 00 00 00 18 00 2b 00 00 00 | ccc........ +... | 
0000c0b0 2b 68 01 00 00 00 00 06 06 80 00 00 00 32 01 10 |th........... 2..| 
0000c0c0 64 65 65 65 65 20 20 20 20 20 20 20 20 66 66 66 |deeeefff | 
0000c0d0 03 01 06 00 00 20 ff 98 00 00 00 2b 68 02 00 00 |..... ..... +h... 
0000c0e0 00 00 06 07 80 00 00 00 32 01 10 64 66 66 66 00 |........ 2..dfff.| 


该 行 记录 从 0000c078 开 始 ， 若 整理 如 下 ， 相 信 你 会 有 更 好 的 理解 


03 02 01/* 变 长 字段 长 度 列表 ， 逆 序 */ 

00 /*NULL 标 志 位 ， 第 一 行 没 有 NULL 值 */ 

00 00 10 00 2c /* 记 录 头 信息 ， 固 定 5 字 节 长 度 */ 

00 00 00 2b 68 00/*RowID 我 们 建 和 的 表 没 有 主键 ， 因 此 会 有 RowID*/ 
00 00 00 00 06 05/*TransactionID*/ 

80 00 00 00 32 01 10/*Roll Pointer*/ 

61/* 列 1 数据 'a'*/ 

62 62/*3]2 'bb'*/ 

62 62 20 20 20 20 20 20 20 20/* 列 3 数据 'bb' */ 

63 63 63/* 列 4 数据 'ccc'*/ 


现在 第 一 行 数据 就 展现 在 我 们 眼前 了 。 需 要 注意 的 是 ， 变 长 字段 长 度 列表 是 逆序 存放 
的 ，03 02 01， 而 不 是 01 02 03 。 还 需要 注意 的 是 InnoDB 每 行 有 隐藏 列 。 同 时 可 以 看 到 ， 
固定 长 度 char 字 段 在 未 填充 满 其 长 度 时 ， 会 用 0x20 来 进行 填充 。 再 来 分 析 一 下 ， 记 录 头 信 
息 的 最 后 4 个 字 节 代表 next_recorder，0x6800 代 表 下 一 个 记录 的 偏 移 量 ， 当 前 记录 的 位 置 
+0x6800 就 是 下 一 条 记录 的 起 始 位 置 。 所 以 InnoDB 存 储 引擎 在 页 内 部 是 通过 一 种 链表 的 结 
构 来 串联 各 个 行 记录 的 。 

第 二 行 我 将 不 做 整理 ， 除 了 RowID 不 同 外 ， 它 和 第 一 行 大同 小 异 ， 有 兴趣 的 读者 可 以 
用 上 面 的 方法 自己 试 试 。 现 在 我 们 关注 有 NULL 值 的 第 三 行 : 


03 01/* 变 长 字段 长 度 列表 ， 逆 序 */ 

06 /*NULL 标 志 位 ， 第 三 行 有 NULL 值 */ 

00 00 20 ff 98/* 记 录 头 信息 */ 

00 00 00 2b 68 02/*RowID*/ 

00 00 00 00 06 07/*TransactionID*/ 
80 00 00 00 32 01 10/*Roll Pointer*/ 
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64/* 列 1 数据 'd'*/ 
66 66 66/* 列 4 数据 'fff'*/ 


第 三 行 有 NULL 值 ， 因 此 NULL 标 志 位 不 再 是 00 而 是 06 了 ， 转 换 成 二 进 制 为 00000110， 
为 1 的 值 即 代表 了 第 2 列 和 第 3 列 的 数据 为 NULL， 在 其 后 存储 列 数据 的 部 分 ， 我 们 会 发 现 没 
有 存储 NULL， 只 存储 了 第 1 列 和 第 4 列 非 NULL 的 值 。 这 个 例子 很 好 地 说 明了 : 不 管 是 char 
还 是 varchar 类 型 ，NULL 值 是 不 占用 存储 空间 的 。 


4.4.2 Redundant 行 记录 格式 


Redundant 是 MySQL 5.0 版 本 之 前 InnoDB 的 行 记录 存储 方式 ，MySQL 5.0 支 持 
Redundant 是 为 了 向 前 兼容 性 。Redundant 行 记录 以 如 下 方式 存储 : 


图 4-3 Redundant 行 记录 格式 


从 图 4-3 可 以 看 到 ， 不 同 于 Compact 行 记录 格式 ，Redundant 行 格式 的 首部 是 一 个 字段 
长 度 偏 移 列表 ， 同 样 是 按照 列 的 顺序 逆序 放置 的 。 当 列 的 长 度 小 于 255 字 节 ， 用 1 字 节 表 
示 ; 若 大 于 255 个 字 节 ， 用 2 个 字 节 表示 。 第 二 个 部 分 为 记录 头 信息 (record header), ， 不 同 
于 Compact 行 格式 ，Redundant 行 格式 固定 占用 6 个 字 节 (48 位 )， 每 位 的 含义 见 表 4-2。 从 
表 中 可 以 看 到 ，n_fields 值 代表 一 行 中 列 的 数量 ， 占 用 10 位 ， 这 也 很 好 地 解释 了 为 什么 
MYSQL 一 个 行 支持 最 多 的 列 为 1023。 另 一 个 需要 注意 的 值 为 1byte_offs_flags， 该 值 定义 了 
偏 移 列表 占用 1 个 字 节 还 是 2 个 字 节 。 最 后 的 部 分 就 是 实际 存储 的 每 个 列 的 数据 了 。 

#4-2 Redundant 页 格式 


名 称 大 小 (bit) 描述 
0 1 未 知 
0 1 未 知 
deleted_flag 1 该 行 是 否 已 被 删除 
min_rec_flag 1 为 1， 如 果 该 记录 是 预先 被 定义 为 最 小 的 记录 
n owned 4 该 记录 拥有 的 记录 数 
heap_no 13 索引 堆 中 该 条 记录 的 排序 记录 
n_fields 10 记录 中 列 的 数量 
Ibyte offs flag 1 偏 移 列 表 为 1 个 字 节 还 是 2 个 字 节 
next_record 16 页 中 下 一 条 记录 的 相对 位 置 
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接着 ， 我 们 创建 一 张 和 mytest 内 容 完 全 一 样 、 但 行 格式 为 Redundant 的 表 mytest2。 


mysql» create table mytest2 engine-innodb row format-redundant 
-> as 
-> select * from mytest; 

Query OK, 3 rows affected (0.00 sec) 


Records: 3 Duplicates: 0 Warnings: 0 


mysql> show table status like ‘mytest2'\G; 
ce ce ce ce ce ce ce ce ce dece ce ck ce e ck cse ck ke e kk ko Li 1. COW FFKKXKXKKKKKKKKEXKKLKKKKKKKK KAKA 
Name: mytest2 
Engine: InnoDB 
Version: 10 
Row_format: Redundant 
Rows: 3 
Avg row length: 5461 
Data length: 16384 
Max data length: 0 
Index length: 0 
Data free: 0 
Auto increment: NULL 
Create time: 2009-03-18 15:49:42 
Update time: NULL 
Check time: NULL 
Collation: latinl swedish ci 
Checksum: NULL 
Create options: row format-REDUNDANT 
Comment: 


1 row in set (0.00 sec) 


mysql» select * from mytest2\G; 

LEXSEZEZEEZZEEZIZEEZREZEZZEZEEZEREEZI 152 COW Xk'*'*k'k'k'k kk kk kk kk ck kc kk kokokokok ck kk 
tl: a 

t2: bb 

t3: bb 

t4: ccc 

KAKKKKKKKAKKKXKKAXKKKxXKxKXxKXKrKkKkkxkkkkkk 25 row koe ce ce ce ce ce ce ce e cec eee ck ck ko ck ko ko kok ok ok 
tl: d 

t2: ee 

t3: ee 

t4: fff 

koc ce ce ce cce ce ck ce ce ce ke ck ck ck occ kc kc ko kok oko 3. COW **kkkkck kc kc kc kc kc kc k ck k k kc kc kk kk kk kk 
tl: d 

t2: NULL 
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t3: NULL 
t4: fff 


3 rows in set (0.00 sec) 


可 以 看 到 ， 现 在 row_format 变 为 Redundant。 同 样 ， 通 过 hexdump 将 表 空 间 mytest2.ibd 
导出 到 文本 文件 mytest2.txt。 打 开 文 件 ， 找 到 类 似 如 下 行 : 


0000c070 08 03 00 00 73 75 70 72 65 6d 75 6d 00 23 20 16 |....supremum.# .| 


0000c080 14 13 Oc 06 00 00 10 Of 00 ba 00 00 00 2b 68 Ob |............. th. | 
0000c090 00 00 00 00 06 53 80 00 00 00 32 01 10 61 62 62 |..... S....2..abb] 
0000c0a0 62 62 20 20 20 20 20 20 20 20 63 63 63 23 20 16 |bb ccc# .| 
0000c0bO 14 13 Oc 06 00 00 18 Of 00 ea 00 00 00 2b 68 Oc  |............. +h. | 
0000c0cO0 00 00 00 00 06 53 80 00 00 00 32 01 le 64 65 65 |..... S....2..deel 
0000c0d0 65 65 20 20 20 20 20 20 20 20 66 66 66 21 9e 94  |ee fffi..| 
0000c0e0 14 13 Oc 06 00 00 20 Of 00 74 00 00 00 2b 68 Od |...... .. t...+h.| 
0000cOfO 00 00 00 00 06 53 80 00 00 00 32 01 2c 64 00 00 |..... S....2.,d..| 
0000c100 00 00 00 00 00 00 00 00 66 66 66 00 00 00 00 00 |........ fff..... | 


整理 可 以 得 到 如 下 内 容 : 


23 20 16 14 13 Oc 06/* 长 度 偏 移 列表 ， 逆 序 */ 

00 00 10 Of 00 ba/* 记录 头 信息 ， 固 定 6 个 字 节 */ 

00 00 00 2b 68 0b/* RowID*/ 

00 00 00 00 06 53/*TransactionID*/ 

80 00 00 00 32 01 10/*Roll Point*/ 

61/* 列 1 数据 'a'*/ 

62 62/* 列 2 数据 'bb'*/ 

62 62 20 20 20 20 20 20 20 20/* 列 3 数据 'bb' Char 类 型 */ 
63 63 63/* 列 4 数据 'ccc'*/ 


23 20 16 14 13 Oc 06， 逆 转 为 06,0c,13,14,16,20,23。 分 别 代表 第 一 列 长 度 6， 第 二 列 长 
度 6 (6+6=0x0C) ， 第 三 列 长 度 为 7 (6+6+7=0x13)， 第 四 列 长 度 1 (6+6+7+1=0x14)， 第 五 
列 长 度 2 (6+6+7+1+2=0x16)， 第 六 列 长 度 10 (6+6+7+1+2+10=0x20)， 第 七 列 长 度 3 
(6+6+7+1+2+10+3=0x23), 

接着 的 记录 头 信息 中 应 该 注意 48 位 中 22 一 32 位 ， 为 0000000111， 表 示 表 共有 7 个 列 
(包含 了 隐藏 的 3 列 ) ， 接 下 去 的 33 位 为 1， 代 表 偏 移 列表 为 一 个 字 节 。 

后 面 的 信息 就 是 实际 每 行 存放 的 数据 了 ， 这 与 Compact 行 格式 大 致 相同 。 请 注意 是 大 
致 相同 ， 因 为 如 果 我 们 来 看 第 三 行 ， 会 发 现 对 于 NULL 的 处 理 两 者 是 不 同 的 。 

21 9e 94 14 13 Oc 06/* 长 度 偏 移 列 表 ， 逆 序 */ 
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00 00 2 


e 


Of 00 74/* 记 录 头 信息 ， 固 定 6 个 字 节 */ 
00 00 00 2b 68 0d/*RowID*/ 

00 00 00 00 06 53/*TransactionID*/ 

80 00 00 00 32 01 10/*Roll Point*/ 
64/* 列 1 数据 'a'*/ 

00 00 00 00 00 00 00 00 00 00/* 列 3 数据 NULL*/ 
66 66 66/* 列 4 数据 ' fff'*/ 


o o0 


这 里 与 之 前 Compact 行 格式 有 着 很 大 的 不 同 了 ， 首 先 来 看 长 度 偏 移 列表 ， 我 们 逆序 排 
列 后 得 到 06 Oc 13 14 94 9e 21， 前 4 个 值 都 很 好 理解 ， 第 5 个 NULL 变 为 了 94， 接 着 第 6 个 列 
char 类 型 的 NULL 值 为 9e (94+10=0x9e)， 之 后 的 21 代 表 14+3=0x21。 可 以 看 到 对 于 varchar 
的 NULL 值 ，Redundant 行 格式 同样 不 占用 任何 存储 空间 ， 因 而 char 类 型 的 NULL 值 需要 占 

空间 。 

当前 表 mytest2 的 字符 集 为 Latin1， 每 个 字符 最 多 只 占用 1 个 字 节 。 若 这 里 将 表 mytest2 
的 字符 集 转换 为 utf8， 第 三 列 char 固 定 长 度 类 型 就 不 再 是 只 占用 10 个 字 节 了 ， 而 是 10 x 
3=30 个 字 节 ，Redundant 行 格式 下 char 固 定 字符 类 型 将 会 占据 可 能 存放 的 最 大 值 字 节 数 。 有 
兴趣 的 读者 可 以 自行 尝试 。 


4.4.8 行 溢出 数据 


InnoDB 存 储 引擎 可 以 将 一 条 记录 中 的 某 些 数据 存储 在 真正 的 数据 页 面 之 外 ， 即 作为 行 
溢出 数据 。 一 般 认为 BLOB、LOB 这 类 的 大 对 象 列 类 型 的 存储 会 把 数据 存放 在 数据 页 面 之 
Sh, 但是， 这 个 理解 有 点 偏差 ， BLOB 可 以 不 将 数据 放 在 溢出 页 面 ， 而 即使 是 varchar 列 数 
据 类 型 ， 依 然 有 可 能 存放 为 行 溢出 数据 。 我 们 先 来 对 varchar 类 型 进行 研究 。 很 多 DBA 畜 欢 
MySQL 的 VARCHAR 类 型 ， 因 为 相对 于 Oracle VARCHAR2 最 大 存放 4000 个 字 节 ，SQL 
Server 最 大 存放 的 8000 个 字 节 ，MySQL 的 VARCHAR 数 据 类 型 可 以 存放 65 535 个 字 节 。 但 
是 ， 这 是 真 的 吗 ? 真 的 可 以 存放 65 5335 个 字 节 有 吗 ? 如 果 创 建 varchar 长 度 为 65 535 的 表 ， 我 
们 会 得 到 下 面 所 示 的 出 错 信 息 : 

mysql» create table test ( a varchar(65535))charset-latinl engine=innodb; 


ERROR 1118 (42000): Row size too large. The maximum row size for the used table 
type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs 


从 出 错 消息 可 以 看 到 ，InnoDB 存 储 引 擎 并 不 支持 65 535 长 度 的 varchar。 这 是 因为 还 有 
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别 的 开销 ， 因 此 实际 能 存放 的 长 度 为 65 532。 下 面 的 表 创 建 就 不 会 报错 了 : 


mysgl» create table test2 ( a varchar(65532)) charset=latinl engine-innodb; 


Query OK, 0 rows affected (0.15 sec) 


需要 注意 的 是 ， 如 果 在 做 上 述 例子 的 时 候 并 没有 将 89]_mode 设 为 严格 模式 ， 则 可 能 会 
出 现 可 以 建立 表 ， 但 是 会 有 一 条 警告 信息 : 


mysgl» create table test ( a varchar(65535))engine-innodb; 


Query OK, 0 rows affected, 1 warning (0.14 sec) 


mysql> show warnings AG; 

kkkkkkkkkkkkkkkkkkkkkkkkkkk 1, row kk kk k kckck kk hok koe ek kk kx à € 
Level: Note 
Code: 1246 


Message: Converting column 'a' from VARCHAR to TEXT 


1 row in set (0.00 sec) 


警告 信息 提示 了 ， 之 所 以 这 次 可 以 创建 ， 是 因为 MySQL 自 动 将 YARCHAR 转 换 成 了 
TEXT 类 型 。 如 果 我 们 看 test 的 表 结 构 ， 会 发 现 MySQL 自 动 将 VARCHAR 类 型 转换 为 了 
MEDIUMTEX 类 型 : 


mysql> show create table test\G; 

kkkkkkkkkkkkkkkkkkkkkkkkkkk 5 e row e e ce eee ede eoe eee de ce e dece e e e ce ce 4 n Li 
Table: test 

Create Table: CREATE TABLE 'test' ( 


a' mediumtext 
) ENGINE=InnoDB DEFAULT CHARSET-utf8 


1 row in set (0.00 sec) 


还 需要 注意 的 是 ， 上 述 创 建 VARCHAR 长 度 为 65 532 的 表 其 字符 类 型 是 latin1 的 ， 如 果 
换 成 GBK 或 者 UTF-8， 又 会 产生 怎样 的 结果 呢 ? 


mysql» create table test ( a varchar(65532))charset=gbk engine-innodb; 

ERROR 1074 (42000): Column length too big for column 'a' (max = 32767); use BLOB 
or TEXT instead 

mysql» create table test ( a varchar(65532))charset-utf8 engine-innodb; 

ERROR 1074 (42000): Column length too big for column 'a' (max - 21845); use BLOB 
or TEXT instead 


这 次 即使 创建 列 的 VARCHAR 长 度 为 65 532 也 会 报错 ， 但 是 两 次 报错 中 对 于 max 值 的 提 
示 是 不 同 的。 因此 我 们 应 该 理解 VARCHAR (N) 中 ，N 指 的 是 字符 的 长 度 ，VARCHAR 类 


www.TopSage.com 


A 93 


型 最 大 支持 65 535 指 的 是 65 535 个 字 节 。 
此 外 ，MySQL 官 方 手册 中 定义 的 65 535 长 度 是 指 所 有 VARCHAR 列 的 长 度 总 和 ， 如 果 
列 的 长 度 总 和 超出 这 个 长 度 ， 依 然 无 法 创建 ， 如 下 所 示 : 


mysql» create table test2 ( a varchar(22000),b varchar(22000),c varchar(22000)) 
charset-latinl engine-innodb; 

ERROR 1118 (42000): Row size too large. The maximum row size for the used table 
type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs 


3 个 列 长 度 总 和 是 66 000， 因 此 InnoDB 存 储 引 苟 再 次 报 了 同样 的 错误 。 即 使 我 们 能 存 
放 65 532 个 字 节 了 ， 但 是 有 没有 想 过 ，InnoDB 存 储 引擎 的 页 为 16KKB B16 384 个 字 节 ， 怎 
么 能 存放 65 532 个 字 节 了 呢 ? 一 般 情 况 下 ， 数 据 都 是 存放 在 B-tree Node 的 页 类 型 中 ， 但 是 当 
发 生 行 溢 处 时 ， 则 这 个 存放 行 溢 处 的 页 类 型 为 Uncompress BLOB Page。 我 们 来 看 个 例子 : 


mysql» create table t ( a varchar(65532)); 
Query OK, 0 rows affected (0.15 sec) 


mysql» insert into t select repeat('a',65532); 
Query OK, 1 row affected (0.08 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


这 里 创建 了 拥有 一 个 长 度 为 65 532 的 varchar 类 型 表 ， 接 着 用 py_innodb_page_info 工 具 
看 下 面 的 表 空 间 文件 ， 看 看 页 的 类 型 有 哪些 。 


[rooténineyou0-43 mytest]# py innodb page info.py -v t.ibd 
page offset 00000000, page type «File Space Header» 

page offset 00000001, page type «Insert Buffer Bitmap» 
page offset 00000002, page type «File Segment inode» 

page offset 00000003, page type <B-tree Node», page level «0000» 
page offset 00000004, page type «Uncompressed BLOB Page» 
page offset 00000005, page type «Uncompressed BLOB Page» 
page offset 00000006, page type «Uncompressed BLOB Page» 
page offset 00000007, page type «Uncompressed BLOB Page» 
Total number of page: 8: 

Insert Buffer Bitmap: 1 

Uncompressed BLOB Page: 4 

File Space Header: 1 

B-tree Node: 1 

File Segment inode: 1 


可 以 看 到 一 个 B-tree Node 页 类 型 ， 另 外 有 4 个 为 Uncompressed BLOB Page， 这 些 页 中 
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才 是 真正 存放 了 65 532 个 字 节 的 数据 。 既 然 实际 存放 的 数据 都 放 到 BLOB 页 中 ， 那 数据 页 
中 又 存放 了 些 什么 东西 呢 ? 同样 ， 通 过 之 前 的 hexdump 来 读 取 表 空间 文件 ， 从 数据 页 c000 
开始 查看 : 


0000c000 67 ce fc Ob 00 00 00 03 ff ff ff ff ff ff ff ff |g............... 
0000c010 00 00 00 Oa 6a d9 c0 89 45 bf 00 00 00 00 00 00 |]....j...E....... 


0000c020 00 00 00 00 00 c3 00 02 03 a7 80 03 00 00 00 00 |........ sen ng 
0000c030 00 80 00 05 00 00 0001 00 00 00 00 00 00 00 00 |................| 
0000c040 00 00 00 00 00 00 00 00 01 al 00 00 00 c3 00 00 |............ sse 


0000c050 00 02 00 f2 00 00 00 c3 00 00 00 02 0032 01 00 ].............2..| 
0000c060 02 00 1d 69 6e 66 69 6d 75 6d 00 02 00 Ob 00 00 |...infimum...... 
0000c070 73 75 70 72 65 6d 75 6d 14 c3 00 00 00 10 ff £0 supremum........| 
0000c080 00 00 00 b6 2b 00 00 00 00 51 4b 06 80 00 00 00 |....+....QK.....| 
0000c090 2d 01 10 61 61 61 61 61 61 61 61 61 61 61 61 61 -..aaaaaaaaaaaaa| 
0000c0a0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa]| 
0000c0b0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c0cO 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 aaaaaaaaaaaaaaaa| 
0000c0d0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c0e0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c0f0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c100 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 j|aaaaaaaaaaaaaaaa | 
0000c110 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c120 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa] 
0000c130 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c140 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa | 
0000c150 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61  jaaaaaaaaaaaaaaaa| 
0000c160 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c170 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c180 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa]| 
0000c190 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000cla0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c1b0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa | 
0000c1c0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c1d0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa | 
0000cle0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c1f0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c200 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c210 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c220 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c230 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa | 
0000c240 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
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0000c250 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c260 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c270 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa | 
0000c280 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa|] 
0000c290 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c2a0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61  |aaaaaaaaaaaaaaaa| 
0000c2b0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c2c0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa | 
0000c2d0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61  jaaaaaaaaaaaaaaaa| 
0000c2e0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61  [aaaaaaaaaaaaaaaa| 
0000c2£f0 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c300 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c310 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c320 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c330 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c340 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c350 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c360 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c370 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 |aaaaaaaaaaaaaaaa| 
0000c380 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 | aaaaaaaaaaaaaaaa| 
0000c390 61 61 61 00 00 00 c3 00 00 00 04 00 00 00 26 00 |aaa.......... ek. 
0000c3a0 00 00 00 00 00 fc fc 00 00 00 00 00 00 00000 00 |................ | 





可 以 看 到 ， 从 0x0000c093 到 0x0000c392 数 据 页 面 其 实 只 保存 了 varchar (65 532) 的 前 
768 个 字 节 的 前 绥 (prefix) 数据 (这 里 都 是 a) ， 之 后 跟 的 是 偏 移 量 ， 指 向 行 溢出 页 ， 也 
就 是 前 面 我 们 看 到 的 Uncompressed BLOB Page。 因 此 ， 对 于 行 溢出 数据 ， 其 存放 方式 如 
图 4-4 所 示 。 


InnoDB 行 


[perma Top 





图 4-4 frith 


那 多 少 长 度 VARCHAR 是 保存 在 数据 页 里 的 ， 多 少 长 度 开始 又 保存 在 BLOB 页 呢 ? 我 
们 来 思考 一 下 ，InnoDB 存 储 引擎 表 是 索引 组 织 的 ， 即 B+ 树 的 结构 。 因 此 每 个 页 中 至 少 应 
该 有 两 个 行 记录 (否则 失去 了 B+ 树 的 意义 ， 变 成 链表 了 ) 。 因 此 如 果 当 页 中 只 能 存放 下 一 
条 记录 ， 那 么 ImnoDB 存 储 引擎 会 自动 将 行 数据 存放 到 溢出 页 中 。 考 虑 下 面 表 的 一 种 情况 ， 
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mysql> create table t ( a varchar(9000)); 
Query OK, 0 rows affected (0.13 sec) 


mysql» insert into-t select repeat('a',9000); 
Query OK, 1 row affected (0.04 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


表 t 的 变 长 字段 长 度 为 9000， 能 放 在 一 个 页 中 ， 但 是 不 能 保证 2 条 记录 都 能 存放 在 一 个 
页 中 ， 所 以 此 时 如 果 用 py_innodb_page_info 工 具 查 看 ， 可 知 是 存放 在 BLOB 页 中 : 


[root@nineyou0-43 mytest]# py innodb page info.py -v t.ibd 

page offset 00000000, page type «File Space Header» 

page offset 00000001, page type «Insert Buffer Bitmap» 

page offset 00000002, page type «File Segment inode» . 
page offset 00000003, page type «B-tree Node», page level «0000» 
page offset 00000004, page type «Uncompressed BLOB Page» 

page offset 00000005, page type «Uncompressed BLOB Page» 

Total number of page: 6: 

Insert Buffer Bitmap: 1 

Uncompressed BLOB Page: 2 

File Space Header: 1 

B-tree Node: 1 


File Segment inode: 1 


但 是 如 果 可 以 在 一 个 页 中 至 少 放 入 两 行 的 数据 ， 那 varchar 就 不 会 存放 到 BLOB 页 中 。 
经 过 试验 我 发 现 ， 这 个 阀 值 的 长 度 为 8098。 如 我 们 建立 列 为 varchar (8098) 的 表 ， 然 后 插 
入 两 条 记录 : 


mysql» create table t ( a varchar(8098)); 
Query OK, 0 rows affected (0.12 sec) 


mysql» insert into t select repeat('a',8098); 
Query OK, 1 row affected (0.04 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select repeat('a',8098); 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


接着 用 py_innodb_page_info 工 具 对 表 空 间 tibd 进 行 查看 ， 可 以 发 现 此 时 的 行 记录 都 是 
存放 在 数据 页 中 ， 而 不 是 BLOB 页 了。 如 果 熟 悉 Microsoft SOL Server 数 据 库 的 DBA， 可 能 


会 感觉 InnoDB 存 储 引 擎 对 于 varchar 的 管理 和 SQL Server 中 的 VARCHAR (MAX) 类 似 。 
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[root@nineyou0-43 mytest]# py innodb page info.py -v t.ibd 
page offset 00000000, page type «File Space Header» 

page offset 00000001, page type «Insert Buffer Bitmap» 
page offset 00000002, page type «File Segment inode» 

page offset 00000003, page type «B-tree Node», page level «0000» 
page offset 00000000, page type «Freshly Allocated Page» 
page offset 00000000, page type <Freshly Allocated Page> 
Total number of page: 6: 

Freshly Allocated Page: 2 

Insert Buffer Bitmap: 1 

File Space Header: 1 

B-tree Node: 1 


File Segment inode: 1 


对 于 溢出 行 的 管理 ， 同 样 是 采用 段 的 方式 ， 即 InnoDB 存 储 引 警 同 Oracle 一 样 有 BLOB 
行 溢出 段 。 另 一 个 问题 是 ， 对 于 TEXT 或 者 BLOB 的 数据 类 型 ， 我 们 总 是 以 为 它们 是 放 在 
Uncompressed BLOB Page 中 的 ， 其 实 这 也 是 不 准确 的 ， 放 在 数据 页 还 是 BLOB 页 同样 和 前 
面 讨论 的 VARCHAR 一 样 ， 至 少 保证 一 个 页 能 存放 两 条 记录 ， 如 ; 


mysql> create table t ( a blob); 
Query OK, 0 rows affected (0.12 sec) 


mysql» insert into t select repeat('a',8000); 
Query OK, 1 row affected (0.03 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select repeat('a',8000); 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select repeat('a',8000); 
Query OK, 1 row affected (0.01 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql» insert into t select repeat('a',8000); 
Query OK, 1 row affected (0.06 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


我 们 建立 一 个 BLOB 列 的 表 ， 插 入 4 行 数据 长 度 为 8000 的 记录 ， 如 果 用 py_innodb_ 
page_info 工 具 对 表 空间 t.ibd 进 行 查 看 ， 会 发 现 这 些 记 录 其 实 并 没有 保存 在 BLOB 页 中 : 


[root@nineyou0-43 mytest]# py innodb page info.py -v t.ibd 
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page offset 00000000, page type <File Space Header> 

page offset 00000001, page type <Insert Buffer Bitmap> 

page offset 00000002, page type <File Segment inode> 

page offset 00000003, page type <B-tree Node>, page level <0001> 
page offset 00000004, page type <B-tree Node>, page level <0000> 
page offset 00000005, page type <B-tree Node>, page level <0000> 
page offset 00000006, page type <B-tree Node>, page level <0000> 
page offset 00000000, page type <Freshly Allocated Page> 

Total number of page: 8: 

Freshly Allocated Page: 1 

Insert Buffer Bitmap: 1 

File Space Header: 1 

B-tree Node: 4 

File Segment inode: 1 


当然 ， 既 然 我 们 使 用 了 BLOB 列 类 型 ， 一 般 情 况 下 我 们 不 可 能 存放 长 度 这 么 小 的 数据 ， 
因此 对 于 大 多 数 的 情况 ，BLOB 的 行 数据 还 是 会 发 生 行 滚 出， 实际 数据 保存 在 BLOB 页 中 ， 
数据 页 只 保存 数据 的 前 768 个 字 节 。 


4.4.4 Compressed 与 Dynamic 行 记 录 格 式 


InnoDB Plugin 引 入 了 新 的 文件 格式 (file format， 可 以 理解 为 新 的 页 格式 ) ， 对 于 以 前 
支持 的 Compact 和 Redundant 格 式 将 其 称 为 Antelope 文 件 格式 ， 新 的 文件 格式 称 为 Barracuda 
如 图 4-5 所 示 。Barracuda 文 件 格式 下 拥有 两 种 新 的 行 记 录 格 式 Compressed 和 Dynamic 两 种 。 
新 的 两 种 格式 对 于 存放 BLOB 的 数据 采用 了 完全 的 行 溢出 的 方式 ， 在 数据 页 中 只 存放 20 个 
字 节 的 指针 ， 实 际 的 数据 都 存放 在 BLOB Page 中 ， 而 之 前 的 Compact 和 Redundant 两 种 格式 
会 存放 768 个 前 级 字 市 。 


InnoDB 行 
20 字 节 


Off Page 


图 4-5 Barracuda 文 件 格式 的 溢出 行 


Compressed 行 记录 格式 的 另 一 个 功能 就 是 ， 存 储 在 其 中 的 行 数据 会 以 zlib 的 算法 进行 压 
缩 ， 因 此 对 于 BLOB、TEXT、VARCHAR 这 类 大 长 度 类 型 的 数据 能 进行 非常 有 效 的 存储 。 
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4.4.5 ” Char 的 行 结构 存储 


通常 的 理解 VARCHAR 是 存储 变 长 长 度 的 字符 类 型 ，CHAR 是 存储 定 长 长 度 的 字符 类 
型 。 前 面 的 小 结 我 们 已 经 分 析 了 行 结构 的 内 部 存储 ， 可 以 发 现 每 行 的 变 长 字段 长 度 的 列表 
都 没有 存储 对 于 CHAR 类 型 的 长 度 。 但 是 有 没有 注意 到 ， 我 给 出 的 两 个 例子 中 字符 集 都 是 
单字 市 的 latin1 格 式 。 从 MySQL 4.1 开 始 ，CHR (N) 中 的 N 指 的 是 字符 的 长 度 ， 而 不 是 之 
前 版 本 的 字 节 长 度 。 那 也 就 是 说 ， 在 不 同 的 字符 集 下 ，CHAR 的 内 部 存储 的 不 是 定 长 的 数 
据 。 我 们 来 看 下 面 的 这 个 情况 : 


mysql> create table j ( a char(2))charset=gbk; 
Query OK, 0 rows affected (0.11 sec) 


mysql> insert into.j select 'ab'; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> set names gbk; 
Query OK, 0 rows affected (0.00 sec) 


mysql» insert into j select “我 们 ' ; 
Query OK, 1 row affected (0.04 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into j select 'a'; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


j 吉 的 字符 集 是 GBK 的 ， 我 们 分 别 插 入 了 两 个 字符 的 数据 'ab' 和 ' 我 们 ， 查 看 所 占 字 节 可 
得 如 下 结果 : 


mysql> select a,char length(a),length(a) from j\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkkxk l. row kkkkkkkkkkkkkkkkkkkkkkkkkkx*k 
a: ab 
char length(a): 2 
length(a): 2 
ckckckckck c kckok kockckok ck kk kock k kk k kk kkk 2. row kkkkkkkkkkkkkkkkkkkkkkkkkk*k 
a: 我 们 
char length(a): 2 
length(a): 4 


KREKKKEKEKEKEKKEKEKKEKEKKEKEKKEKKKKRK KEK 3. LOW **kkkk kk k kk ck kk kok koko kk k k kk kkekk 
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7 
IN 
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a: a 
char length(a): 1 
length(a): 1 


3 rows in set (0.00 sec) 

通过 不 同 的 字符 串 长 度 函 数 可 以 看 到 ， 前 两 个 记录 'ab' 和 ' 我 们 字符 串 的 长 度 都 是 2， 但 
是 内 部 存储 上 'ab' 占 用 两 个 字 节 ， 而 ' 我 们 ' 占 用 4 个 字 节 。 如 果 看 内 部 十 六 进 制 的 存储 ， 可 以 
看 到 : 


mysql> select a,hex(a) from j\G; 

deckockock cook ck ck ck o ke ke ko ke kc ko ke ko ok ko ck kk ok Li La row FRREZEZZAEZZEZZAZZZAZZAZAZZZZEZEZAREZ à x x 
a: ab 

hex(a): 6162 


ck ck occ ck c c e ke e t e v ko kc ko ko ko ko k ko kc k kk 2. row eode e ce deck oe cede ck oec ko kx e x n e à kx kx x x xx xXx 
a: 我 们 
hex(a): CED2C3C7 


IZZZERERERERERERERZRESZZZRZREI 3. row ce ede ce ce ce ce ce e ce ce ce e ce eed ce e e e x 
a: a 
hex(a): 61 


3 rows in set (0.00 sec) 


对 于 字符 串 'ab' 的 存储 内 部 为 0x6162， 而 ' 我 们 ' 是 0xCED2C3C7， 这 就 可 以 很 明显 地 看 
出 区 别 了 。 因 此 对 于 多 字 节 的 字符 编码 CHAR 类 型 ， 不 再 代表 是 固定 长 度 的 字符 串 了 ， 比 
如 UTF-8 下 CHAR (10) 最 小 可 以 存储 10 个 字 节 的 字符 ， 而 最 大 可 以 存储 30 个 字 节 的 字符 。 
所 以 ， 对 于 多 字 节 字符 编码 的 CHAR 数 据 类 型 的 存储 ，InnoDB 存 储 引擎 在 内 部 将 其 视 为 是 
变 长 的 字符 ， 这 就 表示 了 ， 在 每 行 变 长 长 度 列表 中 会 记录 CHAR 数 据 类 型 的 长 度 。 通 过 
hexdump 工 具 我 们 来 看 j.ibd 文 件 的 内 部 : 


0000c070 73 75 70 72 65 6d 75 6d 02 00 00 00 10 00 lc 00 jsupremum........ | 
0000c080 00 00 b6 2b 2b 00 00 00 51 52 da 80 00 00.00 2d |...++...0R..... -| 
0000c090 01 10 61 62 04 00 00 00 18 ff d5 00 00 00 b6 2b |..ab........... +] 
0000c0a0 2c 00 00 00 51 52 db 80 00 00 00 2d 01 10 ce d2 |,...0R..... seta 
0000c0b0 c3 c7 00 00 00 00 00 00 00 00 00 00 0000 00 00 |................ | 


整理 后 可 以 得 到 如 下 结果 : 


# 第 一 行 记 录 

02 /* 变 长 字段 长 讼 2，char 视 作 变 长 类 型 */ 
00 /* NULL 标 志 位 */ 

00 00 10 00 1c /* 记录 头 信 息 */ 

00 00 00 b6 2b 2b /* RowID */ 
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00 00 00 51 
80 00 00 00 


61 


62 


# 第 二 行 记录 


04 
00 
00 
00 
00 
80 
c3 


00 
00 
00 
00 
d2 


18 
00 
00 
00 
c3 


ff 
b6 
51 
00 
c7 


# 第 三 行 记 录 


02 
00 
00 
00 
00 
80 
61 


现在 很 清楚 地 表明 了 ， 在 InnoDB 存 储 引擎 内 部 对 于 CHAR 类 型 在 多 字 节 字符 集 类 型 的 
存储 了 ，CHAR 很 明确 地 被 视 为 了 变 长 类 型 ， 对 于 未 能 占 满 长 度 的 字符 还 是 填充 0x20。 内 
部 对 于 字符 的 存储 和 我 们 用 hex 函 数 看 到 的 也 是 一 致 的 。 我 们 可 以 说 ， 在 多 字 节 字符 集 的 


00 
00 
00 
00 
20 


20 
00 
00 
00 


ff 
b6 
51 
00 


52 
2d 


d5 
2b 
52 
2d 


b7 
2b 
53 
2d 


da 
01 10 


2c 
db 
01 10 


2d 
17 
01 10 
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TransactionID */ 
Roll Point */ 
字符 'ab’' */ 


变 长 字段 长 度 4，char 视 作 变 长 类 型 */ 
NULL 标 志 位 */ 

记录 头 信息 */ 

RowID */ 

TransactionID */ 

Roll Point */ 

FARI */ 


变 长 字段 长 度 2，char 视 作 变 长 类 型 */ 
NULL 标 志 位 */ 

记录 头 信息 */ 

RowID */ 

TransactionID */ 

Roll Point */ 

字符 'a' */ 


情况 下 ，CHAR 和 VARCHAR 的 行 存储 基本 是 没有 区 别 的 。 


4.5 


通过 前 面 儿 个 小 节 的 介绍 ， 我 们 已 经 知道 页 是 InnoDB 存 储 引 擎 管理 数据 库 的 最 小 磁盘 
单位 。 页 类 型 为 B-tree node 的 页 ， 存放 的 即 是 表 中 行 的 实际 数据 了 。 在 这 一 节 中 ， 我 们 将 


InnoDB 数 据 页 结构 


从 底层 具体 地 介绍 InnoDB 数 据 页 的 内 部 存储 结构 。 


HEB: InnoDB 公 司 本 身 并 没有 详细 介绍 其 页 结构 的 实现 ，MySQL 的 官方 手册 中 也 
基本 没有 提 及 InnoDB 的 页 结构 。 该 小 节 是 我 通过 阅读 源 代 码 来 了 解 InnoDB 的 页 结 
构 ， 同 时 参考 了 Peter 对 于 InnoDB 页 结构 的 分 析 (Peter 在 写 这 部 分 的 时 候 可 能 时 间 
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久远 ， 在 其 之 后 InnoDB 引 入 了 Compact 格 式 ， 因 此 页 结构 有 所 改动 ) ， 因 此 可 能 出 
现 对 页 结构 分 析 错 误 的 情况 ， 如 有 错误 ， 希 望 可 以 指出 。 


InnoDB 数 据 页 由 以 下 七 个 部 分 组 成 ， 如 图 4-6 所 示 : 
Q File Header (文件 头 ) 。 

口 Page Header (页 头 )。 

口 Infimun + Supremum Records。 

Q User Records (用 户 记录 ， 即 行 记录 )。 

Q Free Space ( 空 闪 空间 )。 

Q Page Directory (页 目录 )。 

Q File Trailer (文件 结尾 信息 )。 








File Header 





Page Header 





Infimun + Supremum Records 





User Records 





Free Space 





Page Directory 





File Trailer 
图 4-6 InnoDB 存 储 引 擎 数据 页 结构 











File Header, Page Header, File Trailer 的 大 小 是 固定 的 ， 用 来 标示 该 页 的 一 些 信息 ， 
如 Checksum、 数 据 所 在 索引 层 等 。 其 余部 分 为 实际 的 行 记录 存储 空间 ,因此 大 小 是 动态 的 。 
在 接 下 来 的 各 小 节 中 ， 我 们 将 具体 分 析 各 组 成 部 分 的 作用 。 
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4.5.1 File Header 


File Header 用 来 记录 页 的 一 些 头 信 息 ， 由 如 下 8 个 部 分 组 成 ， 共 占用 38 个 字 市 ， 如 表 4-3 
所 示 : 


表 4-3 File Header 组 成 部 分 
名 称 大 小 ( 字 节 ) 


FIL PAGE, SPACE OR. CHKSUM 4 
FIL PAGE OFFSET 

FIL PAGE. PREV 

FIL. PAGE NEXT 

FIL. PAGE, LSN 

FIL PAGE TYPE 

FIL PAGE FILE, FLUSH. LSN 

FIL. PAGE. ARCH. LOG. NO OR. SPACE ID 


4 o N oo 上 上 上 


OQ FIL_PAGE_SPACE_OR_CHKSUM; 当 MySQL 版 本 小 于 MySQL-4.0.14， 该 值 代表 
该 页 属于 哪个 表 空 间 ， 因 为 如 果 我 们 没有 开启 innodb_file_per_table， 共 享 表 空 间 中 
可 能 存放 了 许多 页 ， 并 且 这 些 页 属于 不 同 的 表 空 间 。 之 后 版 本 的 MySQL， 该 值 代表 
页 的 checksum 值 (一 种 新 的 checksum 值 ) 。 

口 FIL_PAGE_OFFSET: 表 空 间 中 页 的 偏 移 值 。 

口 FIL_PAGE_PREV，FIL_PAGE_NEXT: 当前 页 的 上 一 个 页 以 及 下 一 个 页 。B+ Tree 
特性 决定 了 叶子 节点 必须 是 双向 列表 。 

口 FIL_PAGE_LSN: 该 值 代表 该 页 最 后 被 修改 的 日 志 序列 位 置 LSN (Log Sequence 


Number), 
(]FIL PAGE TYPE: 页 的 类 型 。 通 常 有 以 下 几 种 ， 见 表 4-4。 请 记 住 0x45BF， 该 值 代 

表 了 存放 的 数据 页 。 

表 4-4 ”Page 类 型 
名 称 十 六 进 制 解释 

FIL_PAGE_INDEX Ox45BF B+ 树叶 节点 
FIL_PAGE_UNDO_LOG 0x0002 Undo Log 页 
FIL_PAGE_INODE 0x0003 索引 节点 
FIL_PAGE_IBUF_FREE_LIST 0x0004 Insert Buffer 空 闲 列表 
FIL_PAGE_TYPE_ALLOCATED . 0x0000 该 页 为 最 新 分 配 
FIL_PAGE_IBUF_BITMAP 0x0005 Insert Buffer 位 图 
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名 称 十 六 进 制 解释 
FIL_PAGE_TYPE_SYS 0x0006 系统 页 
FIL PAGE TYPE TRX SYS 0x0007 事务 系统 数据 
FIL_PAGE_TYPE_FSP_HDR 0x0008 File Space Header 
FIL PAGE TYPE XDES 0x0009 扩展 描述 页 
FIL PAGE TYPE BLOB 0x000A BLOB 页 


L)FIL. PAGE FILE FLUSH LSN; 该 值 仅 在 数据 文件 中 的 一 个 页 中 定义 ， 代 表 文 件 
至 少 被 更 新 到 了 该 LSN 值 。 

口 FIL_PAGE_ARCH_LOG_NO_OR_SPACE_ID: 从 MySQL 4.1 开 始 ， 该 值 代表 页 属 
于 哪个 表 空 间 。 


4.5.2 Page Header 


接着 File Header 部 分 的 是 Page Header， 用 来 记录 数据 页 的 状态 信息 ， 由 以 下 14 个 部 分 
组 成 ， 共 占 用 56 个 字 节 。 见 表 4-5。 
表 4-5 Page Header 组 成 部 分 


名 称 大 小 ( 字 节 ) 


PAGE_N_DIR_SLOTS 
PAGE_HEAP_TOP 
PAGE_N_HEAP 
PAGE_FREE 
PAGE_GARBAGE 
PAGE_LAST_INSERT 
PAGE_DIRECTION 
PAGE_N_DIRECTION 
PAGE_N_RECS 
PAGE_MAX_TRX_ID 
PAGE_LEVEL 
PAGE_INDEX_ID 
PAGE_BTR_SEG_LEAF 
PAGE_BTR_SEG_TOP 


on oN NNNN NY P2 LY 


me 一 
o c 


D)PAGE, N. DIR. SLOTS; 在 Page Directory (页 目录 ) 中 的 Slot (18) Xx, Page 
Directory 会 在 4.5.5 节 中 介绍 。 
口 PAGE_HEAP_TOP: 堆 中 第 一 个 记录 的 指针 。 


口 PAGE_N_HEAP: 堆 中 的 记录 数 。 
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Q PAGE FREE; 指向 空闲 列 表 的 首 指针 。 

口 PAGE_GARBAGE: 已 删除 记录 的 字 节 数 ， 即 行 记 录 结 构 中 ，delete flag 为 1 的 记录 
大 小 的 总 数 。 

Q PAGE LAST INSERT; 最 后 插入 记录 的 位 置 。 

OPAGE_DIRECTION; 最 后 插入 的 方向 。 可 能 的 取 值 为 PAGE_LEFT (0x01), 
PAGE RIGHT (0x02), PAGE, SAME, REC (0x03), PAGE, SAME PAGE (0x04), 
PAGE NO DIRECTION (0x05), 

Q PAGE N DIRECTION; 一 个 方向 连续 插入 记录 的 数量 。 

口 PAGE_N_RECS: 该 页 中 记录 的 数量 。 

O PAGE_MAX_TRX_ID: 修改 当前 页 的 最 大 事务 ID ， 注 意 该 值 仅 在 Secondary Index 
定义 。 

口 PAGE_LEVEL: 当前 页 在 索引 树 中 的 位 置 ，0x00 代 表 叶 节点 。 

口 PAGE_INDEX_ID: 当前 页 属于 哪个 索引 ID。 

Q PAGE BTR SEG LEAF; B+ 树 的 叶 节 点 中 ， 文 件 段 的 首 指针 位 置 。 注 意 该 值 仅 在 
B+ 树 的 Root 页 中 定义 。 

口 PAGE_BTR_SEG_TOP: B+ 树 的 非 叶 节点 中 ， 文 件 段 的 首 指针 位 置 。 注 意 该 值 仅 在 
B+ 树 的 Root 页 中 定义 。 


4.5.3 jnfimum 和 Supremum 记 录 


在 InnoDB 存 储 引 擎 中 ， 每 个 数据 页 中 有 两 个 虚拟 的 行 记 录 ， 用 来 限定 记录 的 边界 。 
Infimum 记 录 是 比 该 页 中 任何 主键 值 都 要 小 的 值 ，Supremum 指 比 任何 可 能 大 的 值 还 要 大 的 
值 。 这 两 个 值 在 页 创建 时 被 建立 ， 并 且 在 任何 情况 下 不 会 被 删除 。 在 Compact 行 格式 和 
Redundant 行 格式 下 ， 两 者 占用 的 字 节 数 各 不 相同 。 图 4-7 显 示 了 Infimum 和 Supremum 


Records, 
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图 4-7 _ infinum 和 Supremum 记 录 


4.5.4 User Records 与 FreeSpace 


.. User Records 就 是 之 前 我 们 讨论 过 的 部 分 ， 即 实际 存储 行 记 录 的 内 容 。 再 次 强调 ， 
InnoDB 存 储 引 擎 表 总 是 B+ 树 索引 组 织 的 。 

很 明显 ，Free Space 指 的 就 是 空闲 空间 ， 同 样 也 是 个 链表 数据 结构 。 当 一 条 记录 被 删 
除 后 ， 该 空间 会 被 加 入 空闲 链表 中 。 


4.5.5 Page Directory 


Page Directory (页 目录 ) 中 存放 了 记录 的 相对 位 置 (注意 ， 这 里 存放 的 是 页 相对 位 置 ， 
而 不 是 偏 移 量 ) ， 有 些 时 候 这 些 记 录 指 针 称 为 Slots (Hi) RAR (Directory Slots), 
与 其 他 数据 库 系统 不 同 的 是 ，InnoDB 并 不 是 每 个 记录 拥有 一 个 槽 ，InnoDB 存 储 引擎 的 模 
是 一 个 稀 朴 目录 (sparse directory) ， 即 一 个 槽 中 可 能 属于 (belong to) 多 个 记录 ， 最 少 属 
于 4 条 记录 ， 最 多 属于 8 条 记录 。 

Slots 中 记录 按照 键 顺序 存放 ， 这 样 可 以 利用 二 又 查找 迅速 找到 记录 的 指针 。 假 设 我 们 
A (i, du e, C, Ce, Cp, CU, Cb, CP, Sj, Ck' Ca), RRB HERES 
2X, MSlots HAIGH AR (asy ‘e, i). 

由 于 InnoDB 存 储 引擎 中 Slots 是 稀疏 目录 ， 二 又 查找 的 结果 只 是 一 个 粗略 的 结果 ， 所 以 
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InnoDB 44h xb recorder header 中 的 next_record 来 继续 查找 相关 记录 。 同 时 ，slots 很 好 地 
解释 了 recorder header 中 的 n_owned 值 的 含义 ， 即 还 有 多 少 记录 需要 查找 ， 因 为 这 些 记录 并 
不 包括 在 slots 中 。 

需要 牢记 的 是 ，B+ 树 索引 本 身 并 不 能 找到 具体 的 一 条 记录 ，B+ 树 索引 能 找到 只 是 该 记 
录 所 在 的 页 。 数 据 库 把 页 载 人 内 存 ， 然 后 通过 Page Directory 再 进行 二 又 查找 。 只 不 过 二 又 
查找 的 时 间 复 杂 度 很 低 ， 同 时 内 存 中 的 查找 很 快 ， 因 此 通常 我 们 忽略 了 这 部 分 查找 所 用 的 
时 间 。 


4.5.6 File Trailer 


为 了 保证 页 能 够 完整 地 写 入 磁盘 (如 可 能 发 生 的 写 入 过 程 中 磁盘 损坏 、 机 器 宕 机 等 原 
因 ) ，InnoDB 存 储 引 擎 的 页 中 设置 了 File Trailer 部 分 。File Trailer 只 有 一 个 FIL_PAGE_ 
END_LSN 部 分 ， 占 用 8 个 字 节 。 前 4 个 字 节 代表 该 页 的 checksum 值 ， 最 后 4 个 字 节 和 File 
Header 中 的 FIL_PAGE_LSN 相 同 。 通 过 这 两 个 值 来 和 File Header 中 的 FIL_PAGE_SPACE_ 
OR_CHKSUM 和 FIL_PAGE_LSN 值 进行 比较 ， 看 是 否 一 致 (checksum 的 比较 需要 通过 
InnoDB 的 checksum 函 数 来 进行 比较 ， 不 是 简单 的 等 值 比较 ) ， 以 此 来 保证 页 的 完整 性 (not 


corrupted) 。 


4.5.7 innoDB 数 据 页 结构 示例 分 析 


通过 前 面 各 小 节 的 介绍 ， 相信 读者 对 于 InnoDB 存 储 引 擎 的 数据 页 已 经 有 了 一 个 大 臻 的 
了 解 。 本 节 我 将 通过 一 个 具体 的 表 ， 结 合 前 面 的 介绍 来 具体 分 析 一 个 数据 页 的 内 部 存储 结 
构 。 首 先 我 们 建立 一 张 表 ， 并 导 人 一 定量 的 数据 ; 


mysql» drop table if exists t; 
Query OK, 0 rows affected (0.04 sec) 


mysql» create table t ( a int unsigned not null auto increment, b char(10), 
primary key (a))ENGINE-InnoDB CHARSET-UTF-8; 
Query OK, 0 rows affected (0.00 sec) 


mysqi» delimiter $$ 


mysql> create procedure load t (count int unsigned) 
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-> 
-> 
-> 
-> 
-> 
-> 
-> 


-> 


Query OK, 


mysql> delimiter ; 


begin 


set @c = 0; 


while 8c < count do 
insert into t select null,repeat(char(97+rand()*26),10); 
set @c=@ct1; 


end while; 
end; 
$$ 


mysql» call load t(100); 


Query 


mysql> 


OK, 


select * from t limit 10; 


dddddddddd 
hhhhhhhhhh 
bbbbbbbbbb 
iiiiiiiiii 
nnnnnnnnnn 
qqqqqqqqqq 
0000000000 
YYYYYYYYYY 
YYYYYYYYYY 
VVVVVVVVVV 


10 rows in set (0.00 sec) 


0 rows affected (0.00 sec) 


0 rows affected (0.60 sec) 


接着 我 们 用 工具 py_innodb_page_info 来 分 析 t.ibd， 得 到 如 下 内 容 : 


py innodb page info.py -v t.ibd 


[rooténineyou0-43 mytest]# 


page offset 
page offset 
page offset 
page offset 
page offset 
page offset 


00000000, page 
00000001, page 
00000002, page 
00000003, page 
00000000, page 
00000000, page 


Total number of page: 6: 
Freshly Allocated Page: 2 
Insert Buffer Bitmap: 1 


File Space Header: 1 


type 
type 
type 
type 
type 
type 


«File Space Header? 

«Insert Buffer Bitmap» 

«File Segment inode» 

«B-tree Node», page level «0000» 
«Freshly Allocated Page» 
<Freshly Allocated Page> 
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B-tree Node: 1 


File Segment inode: 1 


看 到 第 四 个 页 (page offset 3) 是 数据 页 ， 然 后 通过 hexdump 来 分 析 t.ibd 文 件 ， 打 开 整 
理 得 到 的 十 六 进 制 文件 ， 数 据 页 在 0x0000c000 (16K*3=0xc000) 处 开始 ， 得 到 以 下 内 容 : 





0000c000 52 1b 24 00 00 00 00 03 ff ff ff ff ff ff ff ff |R.S........... Teul 
0000c010 00 00 00 Oa 6a e0 ac 93 45 bf 00 00 00 00 00 00 |....j...E....... 
0000c020 00 00 00 00 00 dc 00 la Od c0 80 66 00 00 00 00 |...........f.... 
0000c030 Od a5 00 02 00 63 00 64 00 00 00 00 00 00 00 00 ].....c.d........ 
0000c040 00 00 00 00 00 00 00 00 01 ba 00 00 00 de 00 00  |........ eene 
0000c050 00 02 00 £2 00 00 00 dc 00 00 00 02 00 32 01 00 ]............. dis 
0000c060 02 00 1c 69 6e 66 69 6d 75 6d 00 05 00 Ob 00 00 |...infimum...... 
0000c070 73 75 70 72 65 6d 75 6d Oa 00 00 00 10 00 22 00 |supremum......". 
0000c080 00 00 01 00 00 00 51 6d eb 80 00 00 00 2d 01 10 |...... Om. .... -.. 
0000c090 64 64 64 64 64 64 64 64 64 64 Oa 00 00 00 18 00 |dddddddddd...... 
0000c0a0 22 00 00 00 02 00 00 00 51 6d ec 80 00 00 00 2d ]|".......Qm.....- 
0000c0b0 01 10 68 68 68 68 68 68 68 68 68 68 0a 00 00 00 |..hhhhhhhhhh....| 
0000coc0 20 00 22 00 00 00 03 00 00 00 51 6d ed 80 00 00 | .".......Qm.... 
0000c0dO 00 2d 01 10 62 62 62 62 62 62 62 62 62 62 Oa 00 eee 
0000c0e0 04 00 28 00 22 00 00 00 04 00 00 00 51 6d ee 80 |. "eee ee Qm., 





0000c0£0 00 00 00 2d 01 10 69 69 69 69 69 69 69 69 69 69 e ..1liiiiiiiii 
0000c100 Oa 00 00 00 30 00 22 00 00 00 05 00 00 00 51 6d 
0000c110 ef 80 00 00 00 2d 01 10 Ge 6e 6e 6e fe 6e 6e 6e |.....-..nnnnnnnn| 
0000c120 6e 6e 0a 00 00 00 38 00 22 00 00 00 06 00 00 00 j]nn....8.".......] 
0000c130 51 6d £0 80 00 00 00 2d 01 10 71 71 71 71 71 71  [|Qm.....-..qqqaaq| 
0000c140 71 71 71 71 Oa 00 00 00 40 00 22 00 00 00 07 00 |qqqq....@.".....| 
0000c150 00 00 51 6d fl 80 00 00 00 2d 01 10 6f 6f 6f 6f ..Qm.....-..0000| 
0000c160 6f 6f 6f 6f 6f 6f 0a 00 04 00 48 00 22 00 00 00 j[oooooo....H."...| 
0000c170 08 00 00 00 51 6d f2 80 00 00 00 2d 01 10 79 79  |....Qm.....-..yy| 
0000c180 79 79 79 79 79 79 79 79 Oa 00 00 00 50 00 22 00 lyyyyyyyy....P.”.| 
0000c190 00 00 09 00 00 00 51 6d £3 80 00 00 00 2d 01 10 |......0m.....-..| 
0000cla0 79 79 79 79 79 79 79 79 79 79 Oa 00 00 00 58 00 |yyyyyyyyyy....x.| 
0000c1b0 22 00.00 00 0a 00 00 00 51 6d £4 80 00 00 00 2d |”".......0m.....-]| 
0000c1cO 01 10 76 76 76 76 76 76 76 76 76 76 0a 00 00 00 | | 
0000cld0 60 00 22 00 00 00 Ob 00 00 00 51 6d £5 80 00 00 |'.”.......Qm....| 
0000cle0 00 2d 01 10 6b 6b 6b 6b 6b 6b 6b 6b 6b 6b 0a 00 + |.-..kkkkkkkkkk.. | 
0000clf0 04 00°68 00 22 00 00 00 Oc 00 00 00 51 6d f6 80 | | 








eee Oe 2. ee ee Qm| 





oe Ne ae ae de es 
0000ffcO 00 00 00 00 00 70 Od 1d Oc 95 0c Od Ob 85 0a fd |..... Ds 
0000ffd0 Oa 75 09 ed 09 65 08 dd 08 55 07 cd 07 45 06 bd | -u...e...U...E..] 
0000ffe0 06 35 05 ad 05 25 04 9d 04 15 03 Bd 03 05 02 7d |.5...%......... }| 

| 


0000fffo 01 £5 01 6d 00 es 00 63 95 ae 5d 39 6a e0 ac 93 





em. .2.0..]9j... 
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先 来 分 析 前 面 File Header 的 38 个 字 节 : 

口 52 1b 24 00 数据 页 的 Checksum 值 。 

口 00 00 00 03 页 的 偏 移 量 ， 从 0 开始 。 

口 在 任 任 人 f 前 一 个 页 ， 因 为 只 有 当前 一 个 数据 页 ， 所 以 这 里 为 Oxffffffff。 
口 在 纤纤 任 下 一 个 页 ， 因 为 只 有 当前 一 个 数据 页 ， 所 以 这 里 为 Oxffffffff。 
口 00 00 00 0a 6a e0 ac 93 页 的 LSN。 


Q 45 bf 页 类 型 ，0x45bf 代 表 数 据 页 。 


口 00 00 00 00 00 00 00 这 里 暂时 不 管 该 值 。 

口 00 00 00 dc 表 空 间 的 SPACE ID, 

先 不 急 着 看 下 面 的 Page Header 部 分 ， 我 们 来 看 File Trailer 部 分 。 因 为 File Trailer 通 过 
比较 File Header 部 分 来 保证 页 写 入 的 完整 性 。 


95 ae 5d 39 Checksum 值 ， 该 值 通 过 checksum 函 数 和 File Header 部 分 的 checksum 值 进行 比较 。 
6a e0 ac 93 注意 到 该 值 和 FiLe Header 部 分 页 的 LSN 后 4 个 值 相 等 。 


接着 我 们 来 分 析 56 个 字 节 的 Page Header 部 分 ， 对 于 数据 页 而 言 ，Page Header 部 分 保存 
了 该 页 中 行 记 录 的 大 量 细节 信息 。 分 析 后 可 得 : 


Page Header (56 bytes): 

PAGE N DIR SLOTS = 0x001a 

PAGE HEAP TOP=0x0dc0 

PAGE N HEAP-0x8066 

PAGE FREE-0x0000 

PAGE GARBAGE-0x0000 

PAGE LAST INSERT-0x0da5 

PAGE DIRECTION-0x0002 

PAGE N DIRECTION-0x0063 

PAGE N RECS- 0x0064 

PAGE MAX TRX ID-0x0000000000000000 

PAGE LEVEL=00 00 

PAGE INDEX ID-0x00000000000001ba 

PAGE BTR SEG LEAF-0x000000dc0000000200f2 
PAGE BTR SEG TOP =0x000000dc000000020032 


PAGE N DIR SLOTS-0x001a, fVXPage Directory 有 26 个 槽 ， 每 个 槽 占用 2 个 字 节 ， 
我 们 可 以 从 0x0000ffc4 到 0x0000fff7 找 到 如 下 内 容 。 
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0000ffcO 00 00 00 00 00 70 Od ld Oc 95 Oc Od Ob 85 Oa fd |..... SIE | 
0000ffdO0 Oa 75 09 ed 09 65 08 dd 08 55 07 cd 07 45 06 bd |.u...e...U...E..] 
0000ffe0 06 35 05 ad 05 25 04 9d 04 15 03 8d 03 05 02 7d ].5...$......... }| 
0000£ff0 01 £5 01 6d 00 e5 00 63 95 ae 5d 39 6a e0 ac 93 |...m...0..]93...| 


PAGE_HEAP_TOP=0x0dc0 代 表 空 闲 空间 开始 位 置 的 偏 移 量 ， 即 0xc000+0x0dc0= 
0xcdc0 处 开始 ， 我 们 观察 这 个 位 置 的 情况 ， 可 以 发 现 这 的 确 是 最 后 一 行 的 结束 ， 接 下 去 的 


esta 
部 分 都 是 空闲 空间 了 : 
0000cdb0 00 00 00 2d 01 10 70 70 70 70 70 70 70 70 70 70 | ...-.-pppppppppp | 
0000cdc0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 | adc jm a we carat HEIN TO S RUE ] 
0000cdd0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 | are nirvana 
0000cdeo 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 | lao Sea RIRs e Corton es Me eri Te 


PAGE_N_HEAP=0x8066， 当 行 记录 格式 为 Compact 时 ， 初 始 值 为 0x0802， 当 行 格式 为 
Redundant 时 ， 初 始 值 是 2。 其 实 这 些 值 表示 页 初始 时 就 已 经 有 Infinimun 和 Supremum 的 伪 
记录 行 ，0x8066-0x8002=0x64， 代 表 该 页 中 实际 的 记录 有 100 条 记录 。 

PAGE_FREE=0x0000 代 表 删 除 的 记录 数 ， 因 为 这 里 我 们 没有 进行 过 删除 操作 ， 所 以 这 
里 的 值 为 0。 

PAGE_GARBAGE=0x0000， 代 表 删 除 的 记录 字 节 为 0， 同 样 因为 我 们 没有 进行 过 删除 
操作 ， 所 以 这 里 的 值 依然 为 0。 

PAGE LAST INSERT-0x0da5, ， 表 示 页 最 后 插入 的 位 置 的 偏 移 量 ， 即 最 后 的 插入 位 置 
应 该 在 0xc0000+0x0da5=0xcda5， 查看 该 位 置 : 


0000cda0 00 03 28 £2 cb 00 00 00 64 00 00 00 51 6e 4e 80 |..(..... d...Qnn. | 
0000cdb0 00 00 00 2d 01 10 70 70 70 70 70 70 70 70 70 70 |...-.-pppppppppp | 
0000cdc0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ]............ | 


可 以 看 到 ， 最 后 这 的 确 是 最 后 插入 a 列 值 为 100 的 行 记录 ， 但 是 这 次 直接 指向 了 行 记 录 
的 内 容 ， 而 不 是 指向 行 记 录 的 变 长 字段 长 度 的 列表 位 置 。 

PAGE_DHIRECTION=0x0002， 因 为 我 们 是 通过 自 增长 的 方式 进行 行 记录 的 插入 ， 所 以 
PAGE_DIRECTION 的 方向 是 向 右 。 

PAGE_N_DIRECTION=0x0063， 表 示 一 个 方向 连续 插入 记录 的 数量 ， 因 为 我 们 是 以 自 
增长 的 方式 插入 了 100 条 记录 ， 因 此 该 值 为 99， 

PAGE_N_RECS= 0x0064， 表 示 该 页 的 行 记录 数 为 100， 注 意 该 值 与 PAGE_N_HEAP 的 
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比较 ，PAGE_N_HEAP 包 含 两 个 伪 行 记录 ， 并 且 是 通过 有 符号 的 方式 记录 的 ， 因 此 值 为 
0x8066, ` 

PAGE_LEVEL=0x00， 代 表 该 页 为 叶子 节点 。 因 为 数据 量 目 前 较 少 ， 因 此 当前 B+ 树 索 
引 只 有 一 层 。B+ 数 叶子 层 总 是 为 0x00。 

PAGE INDEX ID-0x00000000000001ba, z&8|ID, 

上 面 就 是 数据 页 的 Page Header 部 分 了 ， 接 下 去 就 是 存放 的 行 记 录 了 ， 前 面 提 到 过 
InnoDB 存 储 引擎 有 2 个 伪 记 录 行 ， 用 来 限定 行 记录 的 边界 ， 我 们 接着 往 下 看 : 

0000c050 00 02 00 £2 00 00 00 dc 00 00 00 02 00 32 01 00 |............. 2..| 


0000c060 02 00 1c 69 6e 66 69 6d 75 6d 00 05 00 Ob 00 00 |...infimum...... | 
0000c070 73 75 70 72 65 6d 75 6d 0a 00 00 00 10 00 22 00 |supremum...... 2] 


观察 0xc05E 到 0xc077， 这 里 存放 的 就 是 这 两 个 伪 行 记录 ，InnoDB 存 储 引擎 设置 伪 行 只 
有 一 个 列 ， 且 类 型 是 Char (8) 。 伪 行 记 录 的 读 取 方 式 和 一 般 的 行 记 录 并 无 不 同 ， 我 们 整理 
后 可 以 得 到 如 下 的 结果 : 


# Infimum 伪 行 记 录 


01 00 02 00 1c /* recorder header */ 

69 6e 66 69 6d 75 6d 00 /* 只 有 一 个 列 的 伪 行 记录 ， 记 录 内 容 就 是 Infimum( 多 了 一 个 0x00 字 节 ) 
*/ 

# Supremum 伪 行 记录 

05 00 Ob 00 00 /* recorder header */ 


73 75 70 72 65 6d 75 6d /* 只 有 一 个 列 的 伪 行 记录 ， 记 录 内 容 就 是 SuPremum */ 

我 们 来 分 析 infimum 行 记录 的 recorder header 部 分 ， 最 后 2 个 字 节 位 00 lc 表示 下 一 个 记 
录 的 位 置 的 偏 移 量 ， 即 当前 行 记录 内 容 的 位 置 0xc063+0x001c， 得 到 0xc07f。0xc07f 应 该 很 
熟悉 了 ， 我 们 前 面 的 分 析 的 行 记 录 结 构 都 是 从 这 个 位 置 开始 。 我 们 来 看 一 下 : 


0000c070 73 75 70 72 65 6d 75 6d 0a 00 00 00 10 00 22 00 |supremum...... "v 
0000c080 00 00 01 00 00 00 51 6d eb 80 00 00 00 2d 01 10 |...... Qm..... -..| 
0000c090 64 64 64 64 64 64 64 64 64 64 0a 00 00 00 18 00 |dddddddddd...... | 
0000c0a0 22 00 00 00 02 00 00 00 51 6d ec 80 00 00 00 2d |"....... Qm..... -| 


可 以 看 到 这 就 是 第 一 条 实际 行 记 录 内 容 的 位 置 了 ， 如 果 整 理 后 可 以 得 到 ， 


/* 第 一 条 行 记录 */ 

00 00 00 01 /* 因为 我 们 建 表 时 设 定 了 主键 ， 这 里 ROWID 即 位 列 a 的 值 I */ 
00 00 00 51 6d eb /* Transaction ID */ 

80 00 00 00 2d 01 10 /* Roll Pointer */ 
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64 64 64 64 64 64 64 64 64 64 /* b 列 的 值 'aaaaaaaaaa' */ 


这 和 我 们 查 表 得 到 的 数据 是 一 致 的 : 


mysql» select a,b,hex(b) from t order by a limit 1; 


SS 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| a | b | hex(b) | 
二 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| 1 | dddddddddd | 64646464646464646464 | 
二 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 

通过 recorder header 最 后 2 个 字 节 记录 的 下 一 行 记录 的 偏 移 量 ， 我 们 就 可 以 得 到 该 页 中 
所 有 的 行 记录 ; 通过 page header 的 PAGE_PREV，PAGE_NEXT 就 可 以 知道 上 一 个 页 和 下 
个 页 的 位 置 。 这 样 ， 我 们 就 能 读 到 整 张 表 所 有 的 行 记录 数据 。 

最 后 我 们 来 分 析 Page Directory, ， 前 面 我 们 已 经 提 到 了 从 0x0000ffc4 到 0x0000fff7 是 当 
前 页 的 Page Directory, 40 F: 


0000ffc0 00 00 00 00 00 70 0d 1d Oc 95 Oc Od Ob 85 0a fd |..... peeecececece | 
0000ffd0 Oa 75 09 ed 09 65 08 dd 08 55 07 cd 07 45 06 bd |.u...e...U...E..| 
0000ffe0 06 35 05 ad 05 25 04 9d 04 15 03 Bd 03 05 02 7d |.5...%......... }| 


0000fff0 01 £5 01 6d 00 e5 00 63 95 ae 5d 39 6a e0 ac 93 |...m...c..]9j...| 


需要 注意 的 是 ，Page Directory 是 逆序 存放 的 ， 每 个 槽 2 个 字 节 。 因 此 我 们 可 以 看 到 : 
00 63 是 最 初 行 的 相对 位 置 ， 即 0xc063，0070 就 是 最 后 一 行 记 录 的 相对 位 置 ， 即 0xc070。 
我 们 发 现 ， 这 就 是 前 面 我 们 分 析 的 infimum 和 supremum 的 伪 行 记录 。Page Directory 槽 中 的 
数据 都 是 按照 主键 的 顺序 存放 ， 因 此 找 具体 的 行 就 需要 通过 部 分 进行 。 前 面 已 经 提 到 ， 
InnoDB 存 储 引擎 的 槽 是 稀疏 的 ， 还 需 通过 recorder header 的 n_owned 进 行进 一 步 的 判断 。 
如 ， 我 们 要 找 主键 4 为 5 的 记录 ， 通 过 二 又 查找 Page Directory 的 槽 ， 我 们 找到 记录 的 相对 位 
置 在 00 e5 处 ， 找 到 行 记录 的 实际 位 置 0xc0e5 : 


0000c0e0 04 00 28 00 22 00 00 00 04 00 00 00 51 6d ee 80 |..(."....... Qm.. | 
0000c0f0 00 00 00 2d 01 10 69 69 69 69 69 69 69 69 69 69 |...-..iiiiiiiiii 
0000c100 Oa 00 00 00 30 00 22 00 00 00 05 00 00 00 51 6d |....0."....... om] 
0000c110 ef 80 00 00 00 2d 01 10 6e 6e 6e 6e 6e 6e 6e 6e |.....-..nnnnnnnn| 
0000c120 6e 6e 0a 00 00 00 38 00 22 00 00 00 06 00 00 00 |nn....8. REA | 
0000c130 51 6d £0 80 00 00 00 2d 01 10 71 71 71 71 71 71 |Om.....-..qqqqaa| 
0000c140 71 71 71 71 Oa 00 00 00 40 00 22 00 00 00 07 00 |qqqq....@. Fiorese | 


可 以 看 到 第 一 行 的 记录 是 4 不 是 我 们 要 找 的 6， 但 是 我 们 看 前 面 的 5 个 字 节 的 record 
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header, 04 00 28 00 22， 找 到 4-8 位 表示 n_owned 值 的 部 分 ， 该 值 为 4， 表 示 该 记录 有 4 个 记 
录 ， 因 此 还 需要 进一步 查找 。 通 过 recorder 和 ader 最 后 2 个 字 节 的 偏 移 量 0x0022， 找 到 下 一 
条 记录 的 位 置 0xc107， 这 才 是 我 们 要 找 的 主键 为 5 的 记录 . 

这 一 节 中 ， 我 们 通过 一 个 实例 深入 浅 出 地 分 析 了 页 中 各 信息 的 存储 ， 相 信 会 对 今后 更 
好 地 理解 InnoDB 存 储 引 擎 和 优化 数据 库 带 来 好 处 。 


4.6 Named File Formats 


随 着 InnoDB 存 储 引擎 的 发 展 ， 新 的 页 数据 结构 有 时 用 来 支持 新 的 功能 特性 。 比 如 前 面 
提 到 的 InnoDB Plugin， 提 供 了 新 的 页 数据 结构 来 支持 表 压 缩 功能 ， 完 全 溢出 的 (Off page) 
大 变 长 字符 类 型 字段 的 存储 。 这 些 新 的 页 数据 结构 和 之 前 版 本 的 页 并 不 兼容 。 因 此 从 
InnoDB Plugin 版 本 开始 ，InnoDB 存 储 引擎 通过 Named File Formats 机 制 来 解决 不 同 版 本 下 
页 结构 兼容 性 的 问题 。 

InnoDB Plugin 将 之 前 版 本 的 文件 格式 (file format) 定义 为 Antelope， 将 这 个 版 本 支持 
的 文件 格式 定义 为 Barracuda。 新 的 文件 格式 总 是 包含 于 之 前 的 版 本 的 页 格式 。 图 4-8 显 示 
了 Barracuda 文 件 格 式 和 Antelope 文 件 格式 之 间 的 关系 ，Antelope 文 件 格 式 有 Compact 和 
Redudant 的 行 格 式 ，Barracuda 文 件 格式 即 包括 了 Antelope 所 有 的 文件 格式 ， 另 外 新 加 入 了 
前 面 我 们 已 经 提 到 过 的 Compressed 何 Dynamic 行 格式 。 


Barracuda File Format 


图 4-8 文件 格式 





在 InnoDB Plugin 的 官方 手册 中 提 到 ， 未 来 版 本 的 InnoDB 存 储 引 警 还 将 引入 的 新 的 文 
件 格式 ， 文 件 格式 的 名 称 取 自 动物 的 名 字 (这 个 学 Apple? ) ， 并 按照 字母 排序 进行 命名 。 
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我 翻阅 了 源 代 码 ， 发 现 目前 已 经 定义 好 的 文件 格式 有 : 


/** List of animal names representing file format. */ 
static const char* file format name map[] = { 
"Antelope", 
"Barracuda", 
"Cheetah", 
"Dragon", 
"Elk", 
"Fox", 
"Gazelle", 
"Hornet", 
"Impala", 
"Jaguar", 
"Kangaroo", 
"Leopard", 
"Moose", 
"Nautilus", 
"Ocelot", 
"Porpoise", 
"Quail", 
"Rabbit", 
"Shark", 
"Tiger", 
"Urchin", 
"Viper", 
"Whale", 
"Xenops", 
"Yak", 
"Zebra" 


H 


参数 innodb_file_format 用 来 指定 文件 格式 ， 可 以 通过 下 面 的 方式 查看 当前 所 使 用 的 
InnoDB 存 储 引 警 的 文件 格式 ， 


mysql> select @@version\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkkk T. LOW FKKKKKKKKKKKKKKKKKKK kk kk k kk 
@@version: 5.1.37 


1 row in set (0.00 sec) 


mysql> show variables like ‘innodb_version'\G; 


Xo ockck ck ck ok coke ko ck ko ko kok oko kokck ko kock kock kk TL. LOW *k'*kkk kk kk kk kk kk kk kk kok k kkkkkX 


Variable name: innodb version 
Value: 1.0.4 
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1 row in set {0.00 sec) 


mysql» show variables like 'innodb file format'\G; 


*Xckck kck kk k k kk kk k kkkkkkkkkkkkk l, row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
Variable name: innodb file format 
Value: Barracuda 


1 row in set (0.00 sec) 


参数 innodb_.file_format_check 用 来 检测 当前 InnoDB 存 储 引擎 文件 格式 的 支持 度 ， 该 值 
默认 为 ON， 如 果 出 现 不 支持 的 文件 格式 ， 你 可 能 在 错误 日 志文 件 中 看 到 类 似 如 下 的 错误 : 


InnoDB: Warning: the system tablespace is in a 


file format that this version doesn't support 


4.7 约束 
4.7.1 数据 完整 性 


关系 型 数据 库 系 统 和 文件 系统 的 一 个 不 同 点 是 ， 关 系数 据 库 本 身 能 保证 存储 数据 的 完 
整 性 ， 不 需要 应 用 程序 的 控制 ， 而 文件 系统 一 般 需要 在 程序 端 进行 控制 。 几 乎 所 有 的 关系 
型 数据 库 都 提供 了 约束 (constraint) 机 制 ， 约 束 提供 了 一 条 强大 而 简易 的 途径 来 保证 数据 
库 中 的 数据 完整 性 ， 数 据 完整 性 有 三 种 形式 ， 
口 实 体 完整 性 ”保证 表 中 有 一 个 主键 。 在 InnoDB 存 储 引 敬 表 中 ， 我 们 可 以 通过 定义 
Primary Key 或 者 Unique Key 约 束 来 保证 实体 的 完整 性 。 或 者 我 们 还 可 以 通过 编写 一 
个 触发 器 来 保证 数据 完整 性 。 

口 域 完整 性 ”保证 数据 的 值 满足 特定 的 条 件 。 在 InnoDB 存 储 引 擎 表 中 ， 域 完整 性 可 以 
通过 以 下 几 种 途径 来 保证 : 选择 合适 的 数据 类 型 可 以 确保 一 个 数据 值 满足 特定 条 件 ， 
外 键 (Foreign Key) 约束 ， 编 写 触 发 器 ， 还 可 以 考虑 用 DEFAULT 约 束 作为 强制 域 
完整 性 的 一 个 方面 。 

口 参照 完整 性 ”保证 两 张 表 之 间 的 关系 。InnoDB 存 储 引擎 支持 外 键 ， 因 此 允许 用 户 定 

义 外 键 以 强制 参照 完整 性 ， 也 可 以 通过 编写 触发 器 以 强制 执行 。 

对 于 InnoDB 存 储 引擎 而 言 ， 提 供 了 4 中 约束 : 


Q Primary Key 
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Q Unique Key 
Q Foreign Key 
DQ Default 

C) NOT NULL 


4.7.2 约束 的 创建 和 查找 


对 于 约束 的 建立 ， 可 以 在 表 建 立时 就 进行 定义 ， 也 可 以 在 之 后 使 用 ALTER TABLE 命 


令 来 进行 创建 。 对 于 Unique Key 的 约束 ， 我 们 还 可 以 通过 Create Unique Index 来 进行 建立 。 
对 于 主键 约束 而 言 ， 其 默认 约束 名 为 PRIMARY KEY。 而 对 于 Unique Key RM, RUA 
约束 名 和 列 名 一 样 ， 当 然 可 以 人 为 的 指定 一 个 名 字 。 对 于 Foreign Key 约 束 ， 似 乎 会 有 一 个 
比较 神秘 的 默认 名 称 。 下 面 是 一 个 简单 的 创建 表 的 语句 ， 表 上 有 一 个 主键 和 一 个 唯一 键 : 


mysql» create table u ( id int , name varchar(20), id card char(18), primary key 
( id) ,unique key ( name )); 


Query OK, 0 rows affected (0.16 sec) 


mysql> select constraint name,constraint type 
-> from 
-» information schema.TABLE CONSTRAINTS 
-> where table schema-'mytest' and table name='u'\G; 
k k k k k k k k ke ZELL EL ce k e k k k k e k k x KKK 1. row RKEKKKKEKK ce cec ke ce e eek ko ko ko oko ko k ko ko A i 
constraint name: PRIMARY 
constraint type: PRIMARY KEY 
ccc cock o kockokokockokokockock ko kc kc ck k kk kk 2. row koc cc c c coc ck ko koc oko ko ok oko k oko kok ok 
constraint name: name 
constraint type: UNIQUE 
2 rows in set (0.00 sec) 


可 以 看 到 ， 约束 名 就 如 我 们 前 面 说 的 。 当 然 我 们 还 可 以 通过 ALTER TABLE 来 进行 创 
并 且 可 以 定义 约束 的 名 字 ， 如 : 

mysql» alter table u add unique key uk id card (id card); 

Query OK, 0 rows affected (0.19 sec) 


Records: 0 Duplicates: 0 Warnings: 0 


kkkkkkkkkkkkkkkkkkkkkkkkkkk T4 LOW 太太 太太 太太 太太 太太 太太 太太 六 六 六 六 六 太太 六 六 六 广大 大 
constraint name: PRIMARY 
constraint type: PRIMARY KEY 


www.TopSage.com 


118 E43 





3e ee eode e ee e he eee de e e e e e e ke e e e ke xk 2, COW e coke ke ke ke eoe e e e e e e e e e e ke ke e ke e e e e 


constraint name: name 

constraint type: UNIQUE 

3 ke e he hee ee he ede e eee ke eoe e he e e e e x x x S. LOW oko eoe e eee eoe e he ehe e eoe e e e n x 
constraint name: uk id card 

constraint type: UNIQUE 

3 rows in set (0.00 sec) 


接着 来 看 Foreign Key 的 约束 ， 因 此 我 们 必须 来 创建 另 一 张 表 


mysql» create table p ( id int, u id int, primary key ( id), foreign key (u id) 
references p (id)); 


Query OK, 0 rows affected (0.13 sec) 


mysql» select constraint name,constraint type 
-> from 
-» information schema.TABLE CONSTRAINTS 
-> where table schema-'mytest' and table name='p'\G; 
3c e e e he e e e e ehe e e ce e e e e e e ke e x kx x x 1, row CC eee e c e ke e e ee e e e ke e e e e e e d x 
constraint name: PRIMARY 
constraint type: PRIMARY KEY 
RK e ke e he de de de de e Re e de he e de e e ee e e de kk 2, LOW e e he e ee ee e e e e eee e e e e e de e e e 
constraint name: p ibfk 1 
constraint type: FOREIGN KEY 


2 rows in set (0.00 sec) 


这 里 我 们 通过 information_schema 架 构 下 的 表 TABLE_CONSTRAINTS 来 查看 当前 
MySQL 库 下 所 有 的 约束 。 对 于 Foreign Key 的 约束 的 定义 ， 我 们 还 可 以 通过 查看 表 
REFERENTIAL_CONSTRAINTS, ， 并 且 可 以 详细 地 了 解 外 键 的 属性 ， 如 : 


mysql» select * from information schema.REFERENTIAL CONSTRAINTS where 
constraint _schema='mytest'\G; 
de fe e e e eoe e eee eode de eoe ehe eee e e e n x x i e LOW ok cdeoe e e hee ee e e e e e e he e he he e de e n 
CONSTRAINT CATALOG: NULL 
CONSTRAINT SCHEMA: test2 
CONSTRAINT NAME: p ibfk 1 
UNIQUE CONSTRAINT CATALOG: NULL 
UNIQUE CONSTRAINT SCHEMA: test2 
UNIQUE CONSTRAINT NAME: PRIMARY 
MATCH OPTION: NONE 
UPDATE RULE: RESTRICT 
DELETE RULE: RESTRICT 
TABLE NAME: p 
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REFERENCED_TABLE_NAME: p 


1 row in set (0.00 sec) 


4.7.3 约束 和 索引 的 区 别 


在 前 面 的 小 节 中 我 们 已 经 看 到 Primary key 和 Unique Key 的 约束 。 有 人 不 禁 会 问 ， 这 不 
就 是 我 们 创建 索引 的 方法 吗 ? 那 约束 和 索引 有 什么 区 别 呢 ? 的 确 ， 当 你 创建 了 一 个 唯一 索 
引 ， 就 创建 了 一 个 了 唯 一 的 约束 。 但 是 约束 和 索 引 的 概念 还 是 有 所 不 同 的 ， 约 束 更 是 一 个 逻 
辑 的 概念 ， 用 来 保证 数据 的 完整 性 ， 而 索引 是 一 个 数据 结构 ， 有 逻辑 上 的 概念 ， 在 数据 库 
中 更 是 一 个 物理 存储 的 方式 。 


4.7.4 对 于 错误 数据 的 约束 


默认 情况 下 ，MySQL 数 据 库 允 许 非法 或 者 不 正确 数据 的 插入 或 更 新 ， 或 者 内 部 将 其 转 
化 为 一 个 合法 的 值 ， 如 对 于 NOT NULL 的 字段 插入 一 个 NULL 值 ， 会 将 其 更 改 为 0 再 进行 插 
入 ， 因 此 本 身 没有 对 数据 的 正确 性 进行 约束 。 我 们 来 看 一 个 例子 : 


mysql» create table a ( id int not null, date date not null); 


Query OK, 0 rows affected (0.13 sec) 


mysql» insert into a select NULL,'2009-02-30'; 
Query OK, 1 row affected, 2 warnings (0.04 sec) 


Records: 1 Duplicates: 0 Warnings: 2 


mysql» show warnings; 
kkkkkkkkkkkkkkkkkkkkkkkkkkk l. row kkkkkkkkkkkkkkkkkkkkkkk kk oko 
Level: Warning 
Code: 1048 
Message: Column 'id' cannot be null 
kkkkkkkkkkkkkkkkkkkkkkkkkkk 2. row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
Level: Warning 
Code: 1265 
Message: Data truncated for column 'date' at row 1 


2 rows in set (0.00 sec) 


mysql> select * from a; 
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ee + 
| 0 | 0000-00-00 | 
OE E EE + 


1 row in set (0.00 sec) 


对 于 NOT NULL 的 列 我 插入 了 一 个 NULL 值 ， 同 时 插入 了 一 个 非法 日 期 '2009-02-30'， 
MySQL 都 没有 报错 ， 而 是 显示 了 警告 《warning)。 如 果 我 们 想 约束 对 于 非法 数据 的 插入 或 
更 新 ，MySQL 是 提示 报错 而 不 是 警告 ， 那 么 我 们 应 该 设置 参数 sql_mode ， 用 来 严格 审核 输 
和 的 参数 ， 如 : 


mysql» SET sql mode - 'STRICT TRANS TABLES'; 
Query OK, 0 rows affected (0.00 sec) 


mysql» insert into a select NULL,'2009-02-30'; 
ERROR 1048 (23000): Column 'id' cannot be null 


mysql» insert into a select 1,'2009-02-30'; 
ERROR 1292 (22007): Incorrect date value: '2009-02-30' for column 'date' at row 1 


我 们 的 目的 达到 了 ， 这 次 MySQL 约 束 了 输入 值 的 合法 性 了 ， 而 且 针 对 不 同 的 错误 ， 提 
示 的 错误 内 容 也 都 不 同 。 参 数 sql_mode 可 设 的 值 有 很 多 ， 具 体 的 请 参考 MySQL 官 方 文档 。 


4.7.5 ENUM 和 SET 约束 


MySQL 不 支持 传统 的 CHECK 约 束 ， 但 是 通过 ENUM 和 SET 类 型 可 以 解决 部 分 这 样 的 
约束 需求 。 如 我 们 的 表 上 有 一 个 性 别 类 型 ， 规 定 域 的 范围 只 能 是 male 或 者 female， 这 种 情 
况 下 我 们 可 以 通过 ENUM 类 型 来 进行 约束 : 


mysql> create table a ( id int, sex enum('male','female')); 


Query OK, 0 rows affected (0.12 sec) 


mysql> insert into a select 1,'female'; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 
mysql> insert into a select 2,'bi'; 


Query OK, 1 row affected, 1 warning (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 1 
可 以 看 到 ， 对 于 第 二 条 记录 的 播 入 依然 是 抱 了 警告 。 因 此 如 果 想 实现 CHECK 约 束 ， 还 
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需要 设置 参数 sql_mode: : 


mysql» SET sql mode = 'STRICT TRANS TABLES'; 
Query OK, 0 rows affected (0.00 sec) 


mysql> insert into a select 2,'bi'; 


ERROR 1265 (01000): Data truncated for column 'sex'.at row 1 


这 次 对 于 非法 的 输入 值 进行 了 约束 ， 但 是 只 限于 对 离散 数值 的 约束 ， 对 于 传统 CHECK 
约束 支持 的 连续 值 的 范围 约束 或 者 更 复杂 的 约束 ，ENUM 和 SET 类 型 还 是 无 能 为 力 ， 这 时 
我 们 就 需要 通过 触发 器 来 实现 约束 了 。 


4.7.6 触发 器 与 约束 


从 前 面 小 节 的 介绍 中 我 们 知道 ， 完 整 性 约束 通常 也 可 以 使 用 触发 器 来 实现 ， 因 此 在 了 
解数 据 完整 性 前 我 们 先 对 触发 器 来 做 一 个 了 解 。 

触发 器 的 作用 是 在 INSERT、DELETE 和 UPDATE 命 令 之 前 或 之 后 自动 调用 SQL 命 令 或 
者 存储 过 程 。MySQL 5.0 对 于 触发 器 的 实现 还 不 是 非常 完善 ， 限 制 比较 多 ; 而 从 MySQL 
5.1 开 始 ， 触 发 器 已 经 相对 稳定 ， 功 能 也 较 之 前 有 了 大 幅 的 提高 。 

创建 触发 器 的 命令 是 CREATE TRIGGER， 只 有 具备 Super 权 限 的 MySQL 用 户 才 可 以 执 
行 这 条 命令 : 

CRERTE 

[DEFINER = { user | CURRENT USER }] 


TRIGGER trigger name BEFORE|AFTER INSERT|UPDATE|DELETE 
ON tbl name FOR EACH ROW trigger stmt 


最 多 可 以 为 一 个 表 建 立 6 个 触发 器 ， 即 分 别 为 INSERT、UPDATE、DELETE 的 BEFORE 
和 AFTER 各 定义 一 个 。BEFORE 和 AFTER 代表 触发 器 发 生 的 时 间 ， 表 示 是 在 每 行 操作 的 之 
前 发 生还 是 之 后 发 生 。 当 前 MySQL 只 支持 FOR EACH ROW 的 触发 方式 ， 即 按 每 行 记录 进 
行 触发 ， 不 支持 如 DB2 的 FOR EACH STATEMENT 的 触发 方式 。 

通过 触发 器 ， 我 们 可 以 实现 MySQL 数 据 库 本 身 并 不 支持 的 一 些 特性 ， 如 对 于 传统 
CHECK 约 束 的 支持 、 物 化 视图 、 高 级 复制 、 审 计 等 特性 。 这 里 我 们 先 关 注 触 发 器 对 于 约束 
的 支持 。 我 们 考虑 用 户 消费 表 ， 每 次 用 户 购 买 一 样 物品 后 其 金额 都 是 减 的 ， 若 这 时 有 不 怀 
好 意 的 人 做 了 类 似 减 去 一 个 负 值 的 操作 ， 这 样 的 话 用 户 的 钱 没 减少 反而 会 不 断 地 增加 。 
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mysql> create table usercash ( userid int , cash int unsigned not null ); 


Query OK, 0 rows affected (0.11 sec) 


mysql> insert into usercash select 1,1000; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> update usercash set cash=cash-(-20) where userid=1; 
Query OK, 1 row affected (0.05 sec) 


Rows matched: 1 Changed: 1 Warnings: 0 


对 于 数据 库 来 说 ， 上 述 的 内 容 没有 任何 问题 ， 都 可 以 正常 运行 ， 不 会 报错 。 但 是 从 业 
务 的 逻辑 上 来 说 ， 这 是 错误 的 ， 消 费 总 是 应 该 减 去 一 个 正 值 ， 而 不 是 负 值 。 因 此 这 时 如 果 
通过 触发 器 来 约束 这 个 逻辑 行为 的 话 ， 可 以 如 下 操作 ， 
mysql> create table usercash err log ( 
-> userid int not null, 
-> old cash int unsigned not null, 
^-» new cash int unsigned not null, 
-> user varchar(30), 


-» time datetime); 


Query OK, 0 rows affected (0.13 sec) 


mysql» delimiter $$ 
mysql» create trigger tgr usercash update before update on usercash 
-> for each row 
-» begin 
-» if new.cash-old.cash » 0 then 
-» insert into usercash err log select old.userid,old.cash,new.cash,user(),now(); 
-» set new.cash = old.cash; 
-» end if; 
-» end; 
-> $$ 
Query OK, 0 rows affected (0.00 sec) 


mysql» delete from usercash; 
Query OK, 1 row affected (0.02 sec) 


mysql» insert into usercash select 1,1000;0 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> update usercash set cash = cash - (-20) where userid=1; 
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Query OK, 0 rows affected (0.02 sec) 
Rows matched: 1 Changed: 0 Warnings: 0 


mysql» select * from usercash; 


du—————- 4---—-—-- + 
| userid | cash | 
4-2------- 4------- * 
| a1 | 1000 | 

Forio 4------- 十 


1 row in set (0.00 sec) 


mysql» select * from usercash err log ; 


pros $e-—--------- de d-————————————————- 
+ + 

userid | old cash | new cash | user | time 
十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 三 三 一 一 一 一 一 一 一 
4----------------------------- * 
| i "| 1000 | 1020 | root@localhost | 2009-11-06 11:49:49 | 
4------2-- 4------------ 4---2222222-2- 4---22-2----m522-2--- 
4----------------------------- * 


1 row in set (0.00 sec) 


我 们 创建 了 一 张 表 用 来 记录 错误 数值 更 新 的 日 志 ， 首 先 判断 新 旧 值 之 间 的 差 值 ， 正 常 
情况 下 消费 总 是 减 的 ， 因 此 新 值 应 该 总 是 小 于 原来 的 值 ， 因 此 对 于 大 于 原 值 的 数据 ， 我 们 
判断 为 非法 的 输入 ， 将 cash 值 设 定 为 原来 的 值 。 


4.7.7 外 键 


外 键 用 来 保证 参照 完整 性 ，MySQL 默 认 的 MyISAM 存 储 引擎 本 身 并 不 支持 外 键 ， 对 于 
外 键 的 定义 只 是 起 到 一 个 注释 的 作用 。InnoDB 存 储 引 警 则 完整 支持 外 键 约束 。 外 键 的 定义 
如 下 : 

[CONSTRAINT [symbol]] FOREIGN KEY 

[index name] (index col name, ...) 

REFERENCES tbl name (index col name,...) 

[ON DELETE reference option] 

[ON UPDATE reference option] 


reference option: 
RESTRICT | CASCADE | SET NULL | NO ACTION 


我 们 可 以 在 CREATE TABLE 时 就 添加 外 键 ， 也 可 以 在 表 创 建 后 通过 ALTER TABLE fit 
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令 来 添加 。 一 个 简单 的 外 键 的 创建 示例 如 下 : 


mysql> CREATE TABLE parent (id INT NOT NULL, 
-» PRIMARY KEY (id) 
-» ) ENGINE-INNODB; 

Query OK, 0 rows affected (0.13 sec) 


mysql» CREATE TABLE child (id INT, parent id INT, 
-» INDEX par ind (parent id), 
-» FOREIGN KEY (parent id) REFERENCES parent(id) 
-» ) ENGINE-INNODB; 

Query OK, 0 rows affected (0.16 sec) 


一 般 来 说 ， 我 们 称 被 引用 的 表 为 父 表 ， 男 一 个 引用 的 表 为 子 表 。 外 键 定 义 为 ，ON 
DELETE 和 ON UPDATE 表 示 父 表 做 DELETE 和 和 UPDATE 操作 时 子 表 所 做 的 操作 。 可 定义 的 
子 表 操作 有 : 
口 CASCADE: 当 父 表 发 生 DELETE 或 UPDATE 操 作 时 ， 相 应 的 子 表 中 的 数据 也 被 
DELETE 或 UPDATE。 

O SET NULL; 当 父 表 发 生 DELETE 或 UPDATE 操 作 时 ， 相 应 的 子 表 中 的 数据 被 更 新 
为 NULL 值 。 当 然 ， 子 表 中 相对 应 的 列 必 须 允 许 NULL 值 。 

ONO ACTION; 当 父 表 发 生 DELETE 或 UPDATE 操 作 时 ， 抛 出 错误 ， 不 允许 这 类 操作 
发 生 。 

O RESTRICT; 当 父 表 发 生 DELETE 或 UPDATE 操 作 时 ， 抛 出 错误 ， 不 允许 这 类 操作 发 
生 。 如 果 定 义 外 键 时 没有 指定 ON DELETE 或 ON UPDATE， 这 就 是 默认 的 外 键 设置 。 

在 Oracle 中 ， 有 一 种 称 为 延 时 检查 (deferred check) 的 外 键 约束 ， 而 目前 MySQL 的 约 
束 都 是 即时 检查 (immediate check) 的 ， 因 此 从 上 面 的 定义 可 以 看 出 ， 在 MySQL 数 据 库 中 
NO ACTION 和 RESTRICT 的 功能 是 相同 的 。 

在 Oracle 数 据 库 中 ， 外 键 通常 被 人 忽视 的 地 方 是 ， 对 于 建立 外 键 的 列 ， 一 定 不 要 忘记 
给 这 个 列 加 上 一 个 索引 。 而 InnoDB 存 储 引 擎 在 外 键 建立 时 会 自动 地 对 该 列 加 一 个 索引 ， 这 
和 Microsoft SQL Server 数 据 库 的 做 法 一 样 。 因 此 可 以 很 好 地 和 避免 外 键 列 上 无 索引 而 导致 的 
死 锁 问 题 的 产生 。 

对 于 参照 完整 性 约束 ， 外 键 能 起 到 一 个 非常 好 的 作用 。 但 是 对 于 数据 的 导入 操作 ， 外 
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键 往往 导致 大 量 时 间 花 费 在 外 键 约束 的 检查 上 ， 因 为 MySQL 的 外 键 是 即时 检查 的 ， 因 此 时 
入 的 每 一 行 都 会 进行 外 键 检查 。 但 是 我 们 可 以 在 导入 过 程 中 忽视 外 键 的 检查 ， 如 : 


mysql> SET foreign key checks = 0; 
mysql» LOAD DATA ...... 
mysql» SET foreign key checks - 1; 


4.8 视图 


视图 (View) 是 一 个 命名 的 虚 表 ， 它 由 一 个 查询 来 定义 ， 可 以 当做 表 使 用 。 与 持久 表 
(permanent table) 不 同 的 是 ， 视 图 中 的 数据 没有 物理 表现 形式 。 


4.8.1 视图 的 作用 


视图 在 数据 库 中 发 挥 着 重要 的 作用 。 视 图 的 主要 用 途 之 一 是 被 用 做 一 个 抽象 装置 ， 特 
别 是 对 于 一 些 应 用 程序 ， 程 序 本 身 不 需要 关心 基 表 (base table) 的 结构 ， 只 需要 按照 视图 
定义 来 获取 数据 或 者 更 新 数据 ， 因 此 ， 视 图 同时 在 一 定 程度 上 起 到 一 个 安全 层 的 作用 。 
MySQL 从 5.0 版 本 开始 支持 视图 ， 创 建 视图 的 语法 如 下 ， 


CREATE 

[OR REPLACE] 

[ALGORITHM = {UNDEFINED | MERGE | TEMPTABLE)] 
[DEFINER = { user | CURRENT USER }] 

[SQL SECURITY { DEFINER | INVOKER }] 

VIEW view name [(column list)] 

AS select statement 

[WITH [CASCADED | LOCAL] CHECK OPTION] 


虽然 视图 是 基于 基 表 的 一 个 虚拟 表 ， 但 是 我 们 可 以 对 某 些 视图 进行 更 新 操作 ， 甚 实 就 
是 通过 视图 的 定义 来 更 新 基本 表 ， 我 们 称 可 以 进行 更 新 操作 的 视图 为 可 更 新 视图 
(updatable view)。 视 图 定义 中 的 WITH CHECK OPTION 就 是 指 对 于 可 更 新 的 视图 ， 更 新 
的 值 是 否 需 要 检查 。 我 们 先 看 个 例子 : 


mysql» create table t ( id int ); 
Query OK, 0 rows affected (0.13 sec) 


mysql» create view v t as select * from t where t«10; 


ERROR 1054 (42822): Unknown column 't' in ‘where clause' 
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mysql» create view v t as select * from t where id«10; 


Query OK, 0 rows affected (0.00 sec) 


mysql» insert into v t select 20; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> select * from v_t; 


Empty set (0.00 sec) 


我 们 创建 了 一 个 id<10 的 视图 ， 但 是 往 里 插入 了 id 为 20 的 值 ， 插 入 操作 并 没有 报错 ， 但 
是 我 们 查询 视图 还 是 没有 能 查 到 数据 。 接 着 我 们 更 改 一 下 视图 的 定义 ， 加 上 WITH CHECK 
OPTION: 


mysql» alter view v t as select * from t where id<10 with check option; 


Query OK, 0 rows affected (0.00 sec) 


mysql» insert into v t select 20; 


ERROR 1369 (HY000): CHECK OPTION failed 'mytest.v t' ` 


这 次 MySQL 数 据 库 会 对 更 新 视图 插入 的 数据 进行 检查 ， 对 于 不 满足 视图 定义 条 件 的 ， 
将 会 抛 出 一 个 异常 ， 不 允许 数据 的 更 新 。 

MysQL DBA 一 个 常用 的 命令 是 show tables, 会 显示 出 当前 数据 库 下 的 表 , 视图 是 虚 表 ， 
同样 被 作为 表 而 显示 出 来 ， 我 们 来 看 前 面 的 例子 ; 


mysql> show tables; 


2 rows in set (0.00 sec) 


show tables 命 令 把 表 t 和 视图 v_t 都 显示 出 来 了 。 如 果 我 们 只 想 查 看 当前 数据 库 下 的 基 表 ， 
可 以 通过 information_schema 架 构 下 的 TABLE 表 来 查询 ， 并 搜索 表 类 型 为 BASE TABLERS 
表 , 如 : 


mysql» select * from information schema.TABLES where table type-'BASE TABLE' and 
table schema-database()*G; 


3 e eee eode ede ode ode oe oe oe oe oe oe ce oe oe de x de e v KK l. row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
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TABLE CATALOG: NULL 
TABLE SCHEMA: mytest 
TABLE NAME: t 
TABLE TYPE: BASE TABLE 
ENGINE: InnoDB 
VERSION: 10 
ROW FORMAT: Compact 
TABLE ROWS: 1 
AVG ROW LENGTH: 16384 
DATA LENGTH: 16384 
MAX DATA LENGTH: 0 
INDEX LENGTH: 0 
DATA FREE: 0 
AUTO INCREMENT: NULL 
CREATE TIME: 2009-11-09 16:27:52 
UPDATE TIME: NULL 
CHECK TIME: NULL 
TABLE COLLATION: utf8 general ci 
CHECKSUM: NULL 
CREATE OPTIONS: 
TABLE COMMENT: 


1 row in set (0.00 sec) 


要 想 查 看 视图 的 一 些 元 数据 (meta data), ， 可 以 访问 information_schema 架 构 下 的 
VIEWS 表 ， 该 表 给 出 了 视图 的 详细 信息 ， 包 括 视图 定义 者 (definer) 、 定 义 内 容 、 是 否 是 
可 更 新 视图 、 字 符 集 等 。 如 我 们 查询 VIEWS 表 ， 可 得 : 


mysql> select * from information schema.VIEWS where table schema=database()\G; 
ck cc cce ck e kk ke kk ek e ke REA kx X l]. row fe e fe hee de eoe de eee kkk k k eoe dee dee à à Li 
TABLE CATALOG: NULL 
TABLE SCHEMA: mytest 
TABLE NAME: v t 
VIEW DEFINITION: select 'mytest'.'t'.'id' AS 'id' from 'mytest'.'t' where 
('mytest'.'t'.'id' « 10) 
CHECK OPTION: CASCADED 
IS UPDATABLE: YES 
DEFINER: root@localhost 
SECURITY TYPE: DEFINER 
CHARACTER SET CLIENT: latinl 
COLLATION CONNECTION: latinl swedish ci 


1 row in set (0.00 sec) 
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4.8.2 物化 视图 


Oracle 数 据 库 支持 物化 视图 一 一 该 视图 不 是 基于 基 表 的 虚 表 ， 而 是 根据 基 表 实际 存在 
的 实 表 。 物 化 视图 可 以 用 于 预先 计算 并 保存 表 连 接 或 聚集 等 耗 时 较 多 的 操作 结果 ， 这 样 ， 
在 执行 复杂 查询 时 ， 就 可 以 避免 进行 这 些 耗 时 的 操作 ， 从 而 快速 得 到 结果 。 物 化 视图 的 好 
处 是 ， 对 于 一 些 复杂 的 统计 类 查询 能 直接 查 出 结果 。 在 Microsoft SQL Server 数 据 库 中 ， 称 
这 种 视图 为 索引 视图 。 

在 Oracle 数 据 库 中 ， 物 化 视图 的 创建 方式 包括 BUILD IMMEDIATE 和 BUILD DEFERRED 
这 两 种 。BUILD IMMEDIATE 是 默认 的 创建 方式 ， 在 创建 物化 视图 的 时 候 就 生成 数据 ， 而 
BUILD DEFERRED 则 在 创建 时 不 生成 数据 ， 以 后 根据 需要 再 生成 数据 。 

查询 重 写 是 指 当 对 物化 视图 的 基 表 进行 查询 时 ，Oracle 会 自动 判断 能 否 通过 查询 物化 
视图 来 得 到 结果 。 如 果 可 以 ， 则 避免 了 聚集 或 连接 操作 ， 而 直接 从 已 经 计算 好 的 物化 视图 
中 读 取 数据 。 

物化 视图 的 刷新 是 指 当 基 表 发 生 了 DML 操 作 后 ， 物 化 视图 何 时 采用 哪 种 方式 和 基 表 进 
行 同步 。 刷 新 的 模式 有 两 种 : ON DEMAND 和 ON COMMIT, ON DEMAND 指 物化 视图 在 
用 户 需要 的 时 候 进 行 刷新 ，ON COMMIT 指 物化 视图 在 对 基 表 的 DML 操 作 提交 的 同时 进行 
刷新 。 刷 新 的 方法 有 四 种 : FAST、COMPLETE、FORCE 和 NEVER。FAST 刷 新 采用 增 量 
刷新 ， 只 刷新 自 上 次 刷新 以 后 进行 的 修改 。COMPLETE 刷 新 对 整个 物化 视图 进行 完全 的 刷 
新 。 如 果 选 择 FORCE 方 式 ， 则 Oracle 在 刷新 时 会 去 判断 是 否 可 以 进行 快速 刷新 ， 如 果 可 以 
则 采用 FAST 方 式 ， 否 则 采用 COMPLETE 的 方式 。NEVER 指 物化 视图 不 进行 任何 刷新 。 

MySQL 数 据 库 本 身 并 不 支持 物化 视图 ， 换 句 话说 ，MySQL 数 据 库 中 的 视图 总 是 虚拟 
的 ， 但 是 我 们 可 以 通过 一 些 机 制 来 实现 物化 视图 的 功能 。 要 创建 一 个 ON DEMAND 的 物化 
视图 还 是 比较 简单 的 ， 我 们 可 以 定时 把 数据 导入 另 一 张 表 。 例 如 ， 我 们 有 如 下 的 订单 表 ， 
记录 了 用 户 采 购 电脑 设备 : 


mysql> create table Orders 
-> ( 
-» order id INT UNSIGNED NOT NULL AUTO INCREMENT, 
-> product name VARCHAR(30) NOT NULL, 
-» price DECIMAL(8,2) NOT NULL, 
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-> amount SMALLINT NOT NULL, 
-> primary key (order id) 
-» )ENGINE-InnoDB; 

Query OK, 0 rows affected (0.13 sec) 


mysql» INSERT INTO Orders VALUES 
-» (NULL, 'CPU', 135.5, 1), 
-» (NULL,'Memory',48.2,3), 
-» (NULL, 'CPU', 125.6, 3), 
-» (NULL, 'CPU', 105.3,4) 
-> H 

Query OK, 4 rows affected (0.03 sec) 


Records: 4 Duplicates: 0 Warnings: 


mysql> select * from Orders\G; 


e eee eee KKK KKK KKK KKK KKK KK KEK l. LOW dde de de e eee e eee eee e e e e e e e x x x 


order id: 1 
product name: CPU 
price: 135.50 


amount: 1 


LAZSESEZZZZIZAZZZZZZZZZZZEZZE kkk 2. LOW *k*kkkkkkkkkkkkkkkkkkkkkkxkxkkk 


order id: 2 
product name: Memory 
price: 48.20 


amount: 3 


LEXEKZZZZZEZIZIZZZZEIZZIZIZZZZEZEI 3. LOW kkkkkkkkk kkkkkkkkkkkkkk&kk&xxkkkk 


order id: 3 
product name: CPU 
price: 125.60 


amount: 3 


okokockok ko kckc ck kockck kocko kc ckokokok k kk kkkkk 4. LOW *k*kkkkkkkkk*kkkkkkkkkkkkkkkkXxk 


order id: 4 
product name: CPU 
price: 105.30 
amount: 4 


4 rows in set (0.00 sec) 


接着 我 们 需要 建立 一 张 物化 视图 ， 用 来 统计 每 件 物品 的 信息 ， 如 : 


mysql» CREATE TABLE Orders MV( 


一 > product name VARCHAR(30) 
一 > , price sum DECIMAL(8,2) 
-> , amount_sum INT 


-> , price avg FLOAT 
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一 > , Orders cnt INT NOT NULL 
一 > : UNIQUE INDEX (product name) 
> ); 


Query OK, 0 rows affected (0.13 sec) 


mysql> INSERT INTO Orders_MV 
-> SELECT product_name 
-> ; SUM(price), SUM(amount), AVG(price) 
-> , COUNT(*) 
一 > FROM Orders 
-> GROUP BY product name; 
Query OK, 2 rows affected (0.02 sec) 


Records: 2 Duplicates: 0 Warnings: 0 


mysql> 

mysql> 

mysql> select * from Orders_MV; 

T------------2---- T-----2---2----- *---------------- +------------ *-------2----- * 


| product name | price sum | amount sum | price avg | orders cnt | 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 ~ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 ~ 一 一 一 一 一 一 一 一 一 一 一 + 
| CPU | 366.40 | 8 | 122.133 | 3 | 

| Memory | 48.20 | 3 | 48.2 | 1 

eS +------------- +---------_------ qT2s-s-2Éc22c2ezclc qdulll2lemecc—— t 


2 rows in set (0.00 sec) 


这 里 我 们 把 物化 视图 定义 为 一 张 表 ， 只 不 过 表 名 以 _MV 结 尾 ， 让 DBA 能 很 好 地 理解 这 
张 表 的 作用 。 这 样 就 有 了 一 个 统计 信息 ， 如 果 是 要 实现 ON DEMAND 的 物化 视图 ， 只 需 把 
表 清 空 ， 重 新 导入 数据 即 可 。 当 然 ， 这 是 完全 (Complete) 刷新 方式 。 要 实现 快 (Fast) 
刷新 方式 ， 其 实 也 是 可 以 的 ， 只 不 过 稍微 复杂 点 ， 需 要 记录 上 次 统计 时 的 order_id 的 位 置 。 

但 是 如 果 要 实现 On Commit 的 物化 视图 ， 这 就 不 是 如 上 面 这 么 简单 了 。Oracle 数 据 库 
中 通过 物化 视图 日 志 来 实现 ， 很 显然 MySQL 数 据 库 没有 这 个 日 志 ， 但 是 通过 触发 器 ， 我 们 
同样 可 以 达到 这 个 目的 : 


DELIMITER $$ 


CREATE TRIGGER tgr Orders insert 
AFTER INSERT ON Orders 
FOR EACH ROW 
BEGIN 
SET 8old price sum - 0; 
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SET @old amount sum = 0; 
SET 8old price avg = 0; 
SET 8old orders cnt - 0; 


SELECT IFNULL(price sum, 0), IFNULL(amount sum, 0), IFNULL(price avg, 0), 
IFNULL(orders cnt, 0) 
FROM Orders MV 
WHERE product name - NEW.product name 


INTO @old price sum, 8old amount sum, @old price avg,  8old orders cnt; 


SET 8new price sum = @old price sum + NEW.price; 


SET @new amount sum &old amount sum + NEW.amount; 
SET 8new orders cnt = @old orders cnt + 1; 
SET @new price avg = fnew price sum / 8new orders cnt ; 


REPLACE INTO Orders MV 


VALUES(NEW.product name, new price sum, fnew amount sum, @new price avg, 
&$new orders cnt ); 


END; 
$$ 


DELIMITER ; 


mysql» insert into Orders values (NULL, 'SSD',299,3); 


Query OK, .1 row affected, 1 warning (0.03 sec) 


mysql» insert into Orders values (NULL, 'Memory',47.9,5); 
Query OK, 1 row affected (0.03 sec) 


mysql> select * from Orders_MV; 
+---------------- +------------- +---------------- +------------ 4------------- + 


| Product name | price sum | amount sum | price avg | orders cnt | 


ql----2--2-22-22-2-2-- 0 e e a +---------------- +-----__n T2-----------—- + 
| CPU | 366.40 | 8 | 122.133 | 3 | 

| Memory | 96.10 | 8 | 48.05 | 2| 

| SSD | 299.00 | 3 | 299 | 1 | 
ee E SE T +----_---------- +----_-_-------- +------------- + 


3 rows in set (0.00 sec) 


这 里 对 表 Orders 添 加 了 一 个 INSERT 的 触发 器 ， 每 次 Insert 操 作 都 会 重新 统计 Orders_ 
MV 中 的 数据 ， 这 样 就 实现 了 ON_Commit 的 物化 视图 功能 。 但 是 Orders 表 可 能 还 会 有 
Update 和 Delete 的 操作 ， 所 以 应 该 还 需要 实现 Delete 和 Update 的 触发 器 一 一 不 过 这 就 留 着 读 
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者 自己 实现 了 。 
通过 触发 器 我 们 实现 了 物化 视图 的 功能 ， 但 是 MySQL 本 身 并 不 支持 物化 视图 ， 因 此 对 
于 物化 视图 支持 的 查询 重 写 (Query Rewrite) 功能 就 显得 无 能 为 力 了 。 


49 分 区 表 
4.9.1 分 区 概述 


分 区 功能 并 不 是 在 存储 引擎 层 完成 的 ， 因 此 不 只 有 InnoDB 存 储 引 擎 支持 分 区 ， 常 见 的 
存储 引擎 MyISAM、NDB 等 都 支持 。 但 也 并 不 是 所 有 的 存储 引擎 都 支持 ， 如 CSYV 、 
FEDERATED、MERGE 等 就 不 支持 。 在 使 用 分 区 功能 前 ， 应 该 了 解 所 选择 的 存储 引擎 对 于 
分 区 的 支持 。 

MySQL 数据 库 在 5.1 版 本 时 添加 了 对 于 分 区 的 支持 ， 这 个 过 程 是 将 一 个 表 或 者 索引 物 
分 解 为 多 个 更 小 、 更 可 管理 的 部 分 。 就 访问 数据 库 的 应 用 而 言 ， 从 逻辑 上 讲 ， 只 有 一 个 表 
或 者 一 个 索引 ， 但 是 在 物理 上 这 个 表 或 者 索引 可 能 由 数 十 个 物理 分 区 组 成 。 每 个 分 区 都 是 
独立 的 对 象 ， 可 以 独自 处 理 ， 也 可 以 作为 一 个 更 大 对 象 的 一 部 分 进行 处 理 。 

MySQL 数 据 库 支持 的 分 区 类 型 为 水 平分 区 9 ， 并 不 支持 垂直 分 区 8 。 此 外 ，MYySQL 数 
据 库 的 分 区 是 局 部 分 区 索引 ， 一 个 分 区 中 既 存 放 了 数据 又 存放 了 索引 。 

可 以 通过 以 下 命令 来 查看 当前 数据 库 是 否 启用 了 分 区 功能 : 

mysql» show variables like '$partition$' VG; 

RO ———— 5 09^ 

Value: YES 


1 row in set (0.00 sec) 


也 可 以 通过 命令 SHOW PLUGINS: 


mysql> show plugins\G; 


oec eee eee che ce ce ce ce ce e e eee eee 2. LOW XX kkckckckckckck kckck ckokockok kok kck kc k ko kk 


Name: partition 


O 水平 分区， 指 同 一 表 中 不 同行 的 记录 分 配 到 不 同 的 物理 文件 中 。 
© 垂直 分 区 ， 指 将 同一 表 中 不 同 的 列 分 配 到 不 同 的 物理 文件 中 。 
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Status: ACTIVE 
Type: STORAGE ENGINE 
Library: NULL 
License: GPL 


9 rows in set (0.01 sec) 


大 多 数 DBA 会 有 这 样 一 个 误区 : 只 要 启用 了 分 区 ， 数 据 库 就 会 变 得 更 快 。 这 个 结论 是 
存在 很 多 问题 的 。 就 我 的 经 验 来 看 ， 分 区 对 于 某 些 SQL 语句 性 能 可 能 会 带 来 提高 ， 但 是 分 
区 主要 用 于 高 可 用 性 ， 利 于 数据 库 的 管理 。 在 OLTP 应 用 中 ， 对 于 分 区 的 使 用 应 该 非常 小 
心 。 总 之 ， 如 果 你 只 是 一 味 地 使 用 分 区 ， 而 不 理解 分 区 是 如 何 工 作 的 ， 也 不 清楚 你 的 应 用 
如 何 使 用 分 区 ， 那 么 分 区 极 有 可 能 只 会 对 性 能 产生 负面 的 影响 。 

当前 MySQL 数 据 库 支持 以 下 几 种 类 型 的 分 区 : 

口 RANGE 分 区 : 行 数据 基于 属于 一 个 给 定 连 续 区 间 的 列 值 放 入 分 区 。MySQL 数 据 库 

5.5 开 始 支持 RANGE COLUMNS 的 分 区 。 
口 LIST 分 区 : 和 RANGE 分 区 类 似 ， 只 是 LIST 分 区 面向 的 是 离散 的 值 。MySQL 数 据 库 
5.5 开 始 支持 LIST COLUMNS 的 分 区 。 

口 HASH 分 区 : 根据 用 户 自 定义 的 表达 式 的 返回 值 来 进行 分 区 ， 返 回 值 不 能 为 负数 。 

口 KEY 分 区 : 根据 MySQL 数 据 库 提供 的 哈 希 函数 来 进行 分 区 。 

不 论 创建 何 种 类 型 的 分 区 ， 如 果 表 中 存在 主键 或 者 是 唯一 索引 时 ， 分 区 列 必 须 是 唯一 
索引 的 一 个 组 成 部 分 ， 因 此 下 面 创 建 分 区 的 SQL 语句 是 会 产生 错误 的 ; 


mysql» CREATE TABLE tl ( 
-> coll INT NOT NULL, 
-> col2 DATE NOT NULL, 
-» col3 INT NOT NULL, 
-> col4 INT NOT NULL, 
-> UNIQUE KEY (coll, col2) 
-> ) 
-> PARTITION BY HASH(col3) 
-> PARTITIONS 4; 
ERROR 1503 (HY000): A PRIMARY KEY must include all columns in the table's 
partitioning function 


唯一 索引 可 以 是 允许 NULL 值 的 ， 并且 分 区 列 只 要 是 唯一 索引 的 一 个 组 成 部 分 ， 不 需 
要 整个 唯一 索引 列 都 是 分 区 列 ， 如 下 代码 所 示 。 
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mysql> CREATE TABLE tl ( 
-> coll INT NULL, 
-» col2 DATE NULL, 
-» col3 INT NULL, 
-» col4 INT NULL, 
-» UNIQUE KEY (coll, col2, col3,col4) 
-> ) 
-» PARTITION BY HASH(col13) 
-» PARTITIONS 4; 
Query OK, 0 rows affected (0.53 sec) 


当 建 表 时 没有 指定 主键 ， 唯 一 索引 时 ， 可 以 指定 任何 一 个 列 为 分 区 列 ， 因 此 下 面 2 名 
.创建 分 区 的 SQL 语句 都 是 可 以 正确 运行 的 ， 


mysql» CREATE TABLE tl ( 
-» coll INT NULL, 
-» col2 DATE NULL, 
-» col3 INT NULL, 
-» col4 INT NULL 
-> )engine=innodb 
~> PARTITION BY HASH(col3) 
-» PARTITIONS 4; 
Query OK, 0 rows affected (0.40 sec) 


mysql> drop table tl; 
Query OK, 0 rows affected (0.11 sec) 


mysql» CREATE TABLE tl ( 
~> coll INT NULL, 
-> col2 DATE NULL, 
-> col3 INT NULL, 
-> col4 INT NULL, 
-> key (col4) 
-> )engine=innodb 
-> PARTITION BY HASH(col13) 
-> PARTITIONS 4; 
Query OK, 0 rows affected (0.65 sec) 


4.9.2 RANGE 分 区 


我 们 介绍 的 第 一 种 类 型 是 RANGE 分 区 ， 也 是 最 常用 的 一 种 分 区 类 型 。 下 面 的 CREATE 
TABLE 语 名 创建 了 一 个 id 列 的 区 间 分 区 表 。 当 id 小 于 10 时 ， 数 据 插入 p0 分 区 。 当 id 大 于 等 
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于 10 小 于 20 时 ,插入 pl 分 区 : 


mysql> create table t( 
-> id int)engine=innodb 
-> partition by range (id) ( 
-> partition p0 values less than (10), 


-» partition pl values less than (20)); 


查看 表 在 磁盘 上 的 物理 文件 ， 启 用 分 区 之 后 ， 表 不 再 由 一 个 ibd 文 件 组 成 了 ， 而 是 由 建 
立 分 区 时 的 各 个 分 区 ibd 文 件 组 成 ， 如 下 所 示 的 细 P#p0.ibd， 夫 P#p1.ibd: 


mysql» system ls -lh /usr/local/mysql/data/test2/t* 


-rw-rw---- 1 mysql mysql 8.4K 75H 31 14:11 /usr/local/mysql/data/test2/t.frm 
-rw-rw---- 1 mysql mysql 28 7H 31 14:11 /usr/local/mysql/data/test2/t.par 
-rw-rw---- 1 mysql mysql 96K 7H 31 14:12 /usr/local/mysql/data/test2/t#P#p0.ibd 
-xw-rw---- 1 mysql mysql 96K 75H 31 14:12 /usr/local/mysql/data/test2/t#P#pl.ibd 
接着 插入 如 下 数据 : 


mysql» insert into t select 9; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 10; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 15; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


因为 表 +t 根 据 列 id 进行 分 区 ， 因 此 数据 是 根据 id 列 的 值 的 范围 存放 在 不 同 的 物理 文件 
中 的 ， 可 以 通过 查询 information_schema 架 构 下 的 PARTITIONS 表 来 查看 每 个 分 区 的 具体 
BE: 


mysql> select * from information schema.PARTITIONS where table schema=database() 
and table name='t'\G; 
LEAAXEXEZERERSERRRERRERESEREZEERI A COW kokokok ck ke e e e ce che che ce e e e e ke € 
TABLE CATALOG: NULL 
TABLE SCHEMA: test2 
TABLE NAME: t 
PARTITION NAME: pO 
SUBPARTITION NAME: NULL 
PARTITION ORDINAL POSITION: 1 
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SUBPARTITION ORDINAL POSITION: 
PARTITION METHOD: 
SUBPARTITION METHOD: 
PARTITION EXPRESSION: 
SUBPARTITION EXPRESSION: 
PARTITION DESCRIPTION: 
TABLE ROWS: 

AVG ROW LENGTH: 

DATA LENGTH: 

MAX DATA LENGTH: 

INDEX LENGTH: 

DATA FREE: 

CREATE TIME: 

UPDATE TIME: 

CHECK TIME: 

CHECKSUM: 

PARTITION COMMENT: 
NODEGROUP: 

TABLESPACE NAME: 
LESERERERERREZERZEREZRZEZIEZEIZZIEI 2. 
TABLE CATALOG: 

TABLE SCHEMA: 

TABLE NAME: 

PARTITION NAME: 
SUBPARTITION NAME: 
PARTITION ORDINAL POSITION: 
SUBPARTITION ORDINAL POSITION: 
PARTITION METHOD: 
SUBPARTITION METHOD: 
PARTITION EXPRESSION: 
SUBPARTITION EXPRESSION: 
PARTITION DESCRIPTION: 
TABLE ROWS: 

AVG ROW LENGTH: 

DATA LENGTH: 

MAX DATA LENGTH: 

INDEX LENGTH: 

DATA FREE: 

CREATE TIME: 

UPDATE TIME: 

CHECK TIME: 

CHECKSUM: 

PARTITION COMMENT: 
NODEGROUP : 


NULL 
RANGE 
NULL 
id 
NULL 
10 

1 
16384 
16384 
NULL 


default 

NULL 

row ke echec cede eee eee ce ceo e e kk kk ok 
NULL 

test2 

t 


default 
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TABLESPACE NAME: NULL 


2 rows in set (0.00 sec) 


TABLE_ROWS 列 反映 了 每 个 分 区 中 记录 的 数量 。 由 于 之 前 向 表 中 插入 了 9、10、15 三 
条 记录 ， 因 此 可 以 看 到 ， 当 前 分 区 p0 中 有 1 条 记录 、 分 区 p1 中 有 2 条 记录 。PARTITION_ 
METHOD 表 示 分 区 的 类 型 ， 这 里 显示 的 是 RANGE。 

对 于 表 t， 因 为 我 们 定义 了 分 区 ， 因 此 对 于 插入 的 值 应 该 严格 遵守 分 区 的 定义 ， 当 插入 
一 个 不 在 分 区 中 定义 的 值 时 ，MySQL 数 据 库 会 抛 出 一 个 异常 。 如 下 所 示 ， 我 们 向 表 t 中 插 
人 30 这 个 值 : 


mysql» insert into t select 30; 
ERROR 1526 (HY000): Table has no partition for value 30 


对 于 上 述 问 题 ， 我 们 可 以 对 分 区 添加 一 个 MAXVALUE 值 的 分 区 。MAXVALUE 可 以 理 
解 为 正 无 穷 ， 因 此 所 有 大 于 等 于 20 并 且 小 于 MAXVALUE 的 值 放 入 p2 分 区 : 


mysql» alter table t add partition ( partition p2 values less than maxvalue ); 
Query OK, 0 rows affected (0.45 sec) 


Records: 0 Duplicates: 0 Warnings: 0 


mysql> insert into t select 30; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


RANGE 分 区 主要 用 于 日 期 列 的 分 区 ， 如 对 于 销售 类 的 表 ， 可 以 根据 年 来 分 区 存放 销售 
记录 ， 如 以 下 所 示 的 分 区 表 sales: 


mysql> create table sales( 
-> money int unsigned not null, 
-> date datetime 
-> )engine=innodb 
-> partition by range (YEAR(date)) ( 
-> partition p2008 values less than(2009), 
-> partition p2009 values less than (2010), 
-» partition p2010 values less than (2011) 
=> ); 


Query OK, 0 rows affected (0.34 sec) 


mysql» insert into sales select 100, '2008-01-01'; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 
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mysql> insert into sales select 100, '2008-02-01'; 
Query OK, 1 row affected (0.03 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql» insert into sales select 200, '2008-01-02'; 
Query OK, 1 row affected (0.04 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into sales select 100, '2009-03-01'; 
Query OK, 1 row affected (0.03 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql» insert into sales select 200, '2010-03-01'; 
Query OK, 1 row affected (0.03 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


这 样 创建 的 好 处 是 ， 便 于 对 sales 这 张 表 的 管理 。 如 果 我 们 要 删除 2008 年 的 数据 ， 就 不 
需要 执行 DELETE FROM sales WHERE date>='2008-01-01' and date <'2009-01-01'， 而 只 需 


删除 2008 年 数据 所 在 的 分 区 即 可 : 


mysql> alter table sales drop partition p2008; 
Query OK, 0 rows affected (0.18 sec) 
Records: 0 Duplicates: 0 Warnings: 0 


这 样 创建 的 另 一 个 好 处 是 ， 可 以 加 快 某 些 查询 的 操作 。 如 果 我 们 只 需要 查询 2008 年 整 
年 的 销售 额 : 


mysql» explain partitions select * from sales where date>='2008-01-01' and 
date<='2008-12-31'\G; 
3e e fe ee oe eee eode dece oe oe eoe eode eode dede de n Li le LOW koe ke oe e che e e e e e e he e e e e ke f à € 
id: 1 
select type: SIMPLE 
table: sales 
partitions: p2008 
type: ALL 
possible keys: NULL 
key: NULL 
key len: NULL 
ref: NULL 
rows: 5 
Extra: Using where 


1 row in set (0.00 sec) 
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通过 EXPLAIN PARTITION 命 令 我 们 可 以 发 现 ， 在 上 述 语 句 中 ，SQL 优 化 器 只 需要 去 搜索 
p2008 这 个 分 区 ， 而 不 会 去 搜索 所 有 的 分 区 ， 因 此 大 大 提高 了 执行 的 速度 。 需 要 注意 的 是 ， 
如 果 执 行 下 列 语句 ， 结 果 是 一 样 的 ， 但 是 优化 器 的 选择 又 会 不 同 了 : 
mysql> explain partitions select * from sales where date>='2008-01-01' and 
date<'2009-01-01'\G; 
方 文 文 文 雄 雄 文 文 直方 广 方 支 广 支 文 文 文 文 广 方 次 文 文 方 广 广 La row LESAZERERERRERERERREERSEEREEA 
id: 1 
select type: SIMPLE 
table: sales 
partitions: p2008,p2009 
type: ALL 
possible keys: NULL 
key: NULL 
key len: NULL 
ref: NULL 
rows: 5 
Extra: Using where 


1 row in set (0.00 sec) 


这 次 条 件 改 为 date<'2009-01-01' 而 不 是 date<='2008-12-31' 时 ， 优 化 器 会 选择 搜索 p2008 
和 p2009 两 个 分 区 ， 这 是 我 们 不 希望 看 到 的 。 因 此 对 于 启用 分 区 ， 你 应 该 根据 分 区 的 特性 
来 编写 最 优 的 SQL 语句 。 

对 于 sales 这 张 分 区 表 ， 我 曾 看 到 过 另 一 种 分 区 函数 ， 设 计 者 的 原意 是 想 可 以 按照 每 年 
每 月 来 进行 分 区 ， 如 : 


mysql> create table sales( 
-> money int unsigned not null, 
-> date datetime 
-> )engine=innodb 
一 > partition by range (YEAR(date)*100+MONTH(date)) ( 
一 > partition p201001 values less than(201002), 
-> partition p201002 values less than (201003), 
-> partition p201003 values less than (201004) 
zc um 


Query OK, 0 rows affected (0.37 sec) 


但 是 在 执行 SQL 语句 时 开发 人 员 会 发 现 ， 优 化 器 不 会 根据 分 区 进行 选择 ， 即 使 他 们 编 
写 的 SQL 语句 已 经 符合 了 分 区 的 要 求 ， 如 ; 


mysql> explain partitions select * from sales Where date>='2010-01-01' and 
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date<='2010-01-31'\G; 
KKK kkk kk kk kkk kkk KG A x xA xA RZ k jie, row RELA LL kkk kkk kk kkk k k kk k k k 
id: 1 
select_type: SIMPLE 
table: sales 
partitions: p201001,p201002,p201003 
type: ALL 
possible_keys: NULL 
key: NULL 
key_len: NULL 
ref: NULL 
rows: 4 
Extra: Using where 


1 row in set (0.00 sec) 


可 以 看 到 优化 对 分 区 p201001、p201002、p201003 都 进行 了 搜索 。 产 生 这 个 问题 的 主 
要 原因 是 ， 对 于 RANGE 分 区 的 查询 ， 优 化 器 只 能 对 YEARO、TO_DAYSO、TO_SECONDS()、 
UNIX_TIMESTAMPO 这 类 国 数 进行 优化 选择 ， 因 此 对 于 上 述 的 要 求 ， 需 要 将 分 区 函数 改 
XjTO DAYS, 4p: 


mysql» create table sales( 
-» money int unsigned not null, 
-» date datetime 
-» )engine=innodb 
-» partition by range(to days(date)) ( 
-» partition p201001 values less than(to days('2010-02-01')), 
-» partition p201002 values less than(to days('2010-03-01')), 
-» partition p201003 values less than(to days('2010-04-01')) 
>) 


Query OK, 0 rows affected(0.36 sec) 


这 时 再 进行 相同 类 型 的 查询 ， 优 化 器 就 可 以 对 特定 的 分 区 进行 查询 了 : 
mysql> explain partitions select * from sales where date>='2010-01-01' and 
date<='2010-01-31'\G; 
CRREZZEZEZEZZZZZZZZEZLEAZEA LE RG Li TL row kkk kkk kk kk k k k k k e e e e k k e e e e e e 
id: 1 
select_type: SIMPLE 
table: sales 
partitions: p201001 
type: ALL 
possible_keys: NULL 
key: NULL 
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key_len: NULL 
ref: NULL 
rows: 4 
Extra: Using where 


1 row in set (0.00 sec) 


4.9.3 LIST 分 区 


LIST 分 区 和 RANGE 分 区 非常 相似 ， 只 是 分 区 列 的 值 是 离散 的 ， 而 非 连续 的 。 如 : 


mysql» create table t ( 
-> a int, 
-» b int)engine-innodb 
-» partition by list(b)( 
-> partition p0 values in (1,3,5,7,9), 
-» partition pl values in (0,2,4,6,8) 
> di 


Query OK, 0 rows affected (0.26 sec) 


不 同 于 RANGE 分 区 中 定义 的 VALUES LESS THAN 语 句 ，LIST 分 区 使 用 VALUES IN, 
所 以 每 个 分 区 的 值 是 离散 的 ， 只 能 是 定义 的 值 。 如 我 们 往 表 中 插入 一 些 数据 : 


mysql» insert into t select 1,1; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 1,2; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 1,3; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 1,4; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql» select table name,partition name,table rows from information schema.PARTITIONS 
where table name='t' and table schema=database()\G; 
E EE EE EE RE RE E E e E EE ] 。 Yow RR Re k ek e dek e E kk ekok ek k e e 

table name: t 


partition name: p0 
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table rows: 2 

sk ck ke e ke e ce ok ce ce oec ke ce ce e ce sk kk kx kok X kx 2. LOW 太太 大 大 大 大 大 大 大 太 大 太太 太太 太太 太太 大大 大 大 大 大 大 大 
table name: t 

partition name: pl 
table rows: 2 


2 rows in set (0.00 sec) 


如 果 揪 人 的 值 不 在 分 区 的 定义 中 ，MySQL 数 据 库 同 样 会 抛 出 异常 


mysql» insert into t select 1,10; 


ERROR 1526 (HY000): Table has no partition for value 10 


BI, (ERINSERTÍf& A Z 147 BiB BU IEEE HG Bl oy DECR GE AAT, MyISAM7I 
InnoDB 存 储 引 警 的 处 理 完全 不 同 。MyISAM 引 警 会 将 之 前 的 行 数 据 都 插入 ， 但 之 后 的 数据 不 
会 被 插入 。 而 InnoDB 存 储 引擎 将 其 视 为 一 个 事务 ， 因 此 没有 任何 数据 插入 。 先 对 MyISAM 存 
储 引 擎 进行 演示 ， 如 : 

mysql» create table t ( 

-» a int, 

-> b int)engine=myisam 

-» partition by list(b)( 

-> partition p0 values in (1,3,5,7,9), 
-» partition pl values in (0,2,4,6,8) 
ze E 


Query OK, 0 rows affected (0.05 sec) 


mysql» insert into t values (1,2),(2,4),(6,10),(5,3); 
ERROR 1526 (HY000): Table has no partition for value 10 


mysql» select * from t; 


+ fassia + 
la | b | 
4------ 4------ + 
| 1| 2 | 
| 2 | 4 | 
4------ 4------ + 


2 rows in set (0.00 sec) 


可 以 看 到 对 于 插入 的 (6，10) 记录 没有 成 功 ， 但 是 之 前 的 〈1，2)，(2，4) 记录 都 
已 经 插入 成 功 了 。 而 同一 张 表 ， 存 储 引 警 换 成 InnoDB ， 则 结果 完全 不 同 : 


mysql» truncate table t; 
Query OK, 2 rows affected (0.00 sec) 
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mysql> alter table t engine=innodb; 
Query OK, 0 rows affected (0.25 sec) 


Records: 0 Duplicates: 0 Warnings: 0 


mysql> insert into t values (1,2),(2,4),(6,10),(5,3); 
ERROR 1526 (HY000): Table has no partition for value 10 


mysql> select * from t; 
Empty set (0.00 sec) 


可 以 看 到 同样 在 插入 (6, 10) 记录 是 报错 ， 但 是 没有 任何 一 条 记录 被 插入 表 t 中 。 
此 在 使 用 分 区 时 ， 也 需要 对 不 同 存储 引擎 支持 的 事务 特性 进行 考虑 。 


4.9.4 HASH 分 区 


HASH 分 区 的 目的 是 将 数据 均匀 地 分 布 到 预先 定义 的 各 个 分 区 中 ， 保 证 各 分 区 的 数据 
数量 大 致 都 是 一 样 的 。 在 RANGE 和 LIST 分 区 中 ， 必 须 明 确 指 定 一 个 给 定 的 列 值 或 列 值 集 
合 应 该 保存 在 哪个 分 区 中 ; 而 在 HASH 分 区 中 ，MySQL 自动 完成 这 些 工 作 ， 你 所 要 做 的 只 
是 基于 将 要 被 哈 希 的 列 值 指定 一 个 列 值 或 表达 式 ， 以 及 指定 被 分 区 的 表 将 要 被 分 割 成 的 分 
区 数量 。 

要 使 用 HASH 分 区 来 分 割 一 个 表 ， 要 在 CREATE TABLE 语句 上 添加 一 个 “PARTITION 
BY HASH (expr)” 子 句 ， 其 中 “expr” 是 一 个 返回 一 个 整数 的 表达 式 。 它 可 以 仅仅 是 字段 
类 型 为 MySQL 整 型 的 一 列 的 名 字 。 此 外 ， 你 很 可 能 需要 在 后 面 再 添加 一 个 “PARTITIONS 
num” 子 句 ， 其 中 num 是 一 个 非 负 的 整数 ， 它 表示 表 将 要 被 分 割 成 分 区 的 数量 。 如 果 没 有 
包括 一 个 PARTITIONS 子 句 ， 那 么 分 区 的 数量 将 默认 为 1。 

下 面 的 例子 创建 了 一 个 HASH 分 区 的 表 t， 按 日 期 列 b 进 行 分 区 : 


mysql» create table t hash ( 
-» a int, 
-» b datetime)engine-innodb 
-» partition by hash (YEAR(b)) 
-» partitions 4; 


Query OK, 0 rows affected (0.42 sec) 
如 果 将 一 个 列 b 为 2010-04-01 这 个 记录 插入 表 t_hash 中 ， 那 么 保存 该 条 记录 的 分 区 确定 
如 下 。 
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MOD(YEAR('2010-04-01'), 4) 
=MOD(2010,4) 
=2 


因此 会 放 入 分 区 2 中 ， 我 们 可 以 按 如 下 方法 来 验证 : 
mysql» insert into t hash select 1,'2010-04-01'; 


Query OK, 1 row affected (0.04 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> select table_name,partition_name,table_rows from information_schema.PARTITIONS 
where table schema-database() and table_name='t_hash'\G; 
kkkkkkkkkkkkkkkkk kkk kk LE Li Li row kkkkkkkkkkkkkkk kk e cede cede ce e e n € 
table name: t hash 
partition name: pO 
table rows: 0 
REKKKKKKKKKKKKKKKKKKKKKKKKEK 2 row KKKKEKKERKKKEKKKKEKK ke ke ke et e à n x 
table name: t hash 
partition name: pl 
table rows: 0 
LESEEEEERRRSRSEREERAZEIZIZIZICIZXZE 3. row 3e se e ce e oe che ee ce ee e eoe e ce oe e e e ce e e n x 
table name: t hash 
partition name: p2 
table rows: 1 
Baa4a4daa4ik3dgckkau e ka e d. COW *XXXXXXXXXXXXXXXXXXXXXXXXXX%XX% 
table name: t_hash 
partition name: p3 
table rows: 0 


4 rows in set (0.00 sec) 


可 以 看 到 p2 分 区 有 1 条 记录 。 当 然 这 个 例子 中 并 不 能 把 数据 均匀 地 分 布 到 各 个 分 区 中 ， 


因为 分 区 是 按照 YEAR 函 数 ， 因 此 这 个 值 本 身 可 以 视 为 是 离散 的 。 如 果 对 于 连续 的 值 进 行 
HASH 分 区 ， 如 自 增 长 的 主键 ， 则 可 以 很 好 地 将 数据 进行 平均 分 布 。 


MySQL 数 据 库 还 支持 一 种 称 为 LINEAR HASH 的 分 区 ， 它 使 用 一 个 更 加 复杂 的 算法 来 
确定 新 行 插入 已 经 分 区 的 表 中 的 位 置 。 它 的 语法 和 HASH 分 区 的 语法 相似 ， 只 是 将 关键 字 


HASH 改 为 LINEAR HASH, 下 面 创建 一 个 LINEAR HASH 的 分 区 表 t_linear_hash， 它 和 之 
前 的 表 t_hash 相 似 ， 只 是 分 区 类 型 不 同 : 


mysql» create table t linear hash( 
-> a int, 


-» b datetime)engine-innodb 
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-> partition by linear hash (year(b)) 
-> partition by 4; 
Query OK, 0 rows affected (0.42 sec) 


同样 插入 “2010-04-01 ”的 记录 ， 这 次 MySQL 数 据 库 根据 以 下 的 方法 来 进行 分 区 的 判 
断 ， i 

(1) 取 大 于 分 区 数量 4 的 下 一 个 2 的 需 值 V，V=POWER (2, CEILING (LOG (2, 
num))) = 4 

(2) 所 在 分 区 N=YEAR ('2010-04-01') & (V-1) = 2。 

虽然 还 是 在 分 区 2， 但 是 计算 的 方法 和 之 前 的 HASH 分 区 完全 不 同 。 接 着 进行 插入 实际 
数据 的 验证 : 


mysql» insert into t linear hash select 1,'2010-04-01'; 
Query OK, 1 row affected (0.02 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> select table_name,partition_name,table_rows from information_schema.PARTITIONS 
where table schema-database() and table name='t_linear_hash'\G; 
ck ce cce e e e e ke e ek e e e ke ke kk kx kk kx X 1. COW kk kckck oc ke ee e ke ke e e e ee e kk x 
table name: t linear hash 
partition name: p0 
table rows: 0 
kc kc e ke e e e e e e e e e e e ke kk kk kk kk kk k 2. COW kk deck e e ke e e e ke e e e e ke ke e KKK - 
table name: t linear hash 
partition name: pl 
table rows: 0 
kc e cke ee ke e eee ke eek eek ek kk ek x e COW "kk kckck koh kc ck eee ke e e e e kk x 
table name: t linear hash 
partition name: p2 
table rows: 1 
ccce e ck ke ek e e e ke ke e e e e e e kx kx kx kx kk 4. LOW **ckck ck ck ck ck ck kc ke ke ke kk kk e e e e ke e € kv € 
table name: t linear hash 
partition name: p3 
table rows: 0 


4 rows in set (0.01 sec) 


LINEAR HASH 分 区 的 优点 在 于 ， 增 加 、 删 除 、 合 并 和 拆 分 分 区 将 变 得 更 加 快捷 ， 这 
有 利于 处 理 含有 大 量 数据 的 表 ， 它 的 缺点 在 于 ， 与 使 用 HASH 分 区 得 到 的 数据 分 布 相 比 ， 
各 个 分 区 间 数 据 的 分 布 可 能 不 大 均衡 。 
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4.9.5 KEY 分 区 


KEY 分 区 和 HASH 分 区 相似 ;不 同 在 于 ，HASH 分 区 使 用 用 户 定义 的 函数 进行 分 区 ， 
KEY 分 区 使 用 MySQL 数 据 库 提供 的 函数 进行 分 区 。NDB Cluster 引 擎 使 用 MD5 函 数 来 分 区 ， 
对 于 其 他 存储 引擎 ，MySQL 数 据 库 使 用 其 内 部 的 哈 希 函数 ， 这 些 函 数 是 基于 与 PASSWORD0O 
一 样 的 运算 法 则 。 如 : 

mysqi» create table t key ( 

-> a int, 
-> b datetime)engine-innodb 
-» partition by key (b) 


-» partitions 4; 
Query OK, 0 rows affected (0.43 sec) 


在 KEY 分 区 中 使 用 关键 字 LINEAR， 和 在 HASH 分 区 中 具有 同样 的 作用 ， 分 区 的 编号 
是 通过 2 的 寡 (powers-of-two) 算法 得 到 的 ， 而 不 是 通过 模 数 算法 。 


4.9.6 COLUMNS 分 区 


在 前 面 介绍 的 RANGE、LIST、HASH 和 KEY 这 四 种 分 区 中 ， 分 区 的 条 件 必 须 是 整 型 
(interger)， 如 果 不 是 整 型 ， 那 应 该 需要 通过 函数 将 其 转化 为 整 型 ， 如 YEAR()、 
TO_DAYSO、MONTHO 等 函数 。MySQL 数 据 库 5.5 版 本 开始 支持 COLUMNS 分 区 ， 可 视 为 
RANGE 分 区 和 LIST 分 区 的 一 种 进化 。COLUMNS 分 区 可 以 直接 使 用 非 整 型 的 数据 进行 分 
区 ， 分 区 根据 类 型 直接 比较 而 得 ， 不 需要 转化 为 整 型 。 其 次 ，RANGE COLUMNS 分 区 可 
以 对 多 个 列 的 值 进行 分 区 。 
COLUMNS 分 区 支持 以 下 的 数据 类 型 : 
口 所 有 的 整 型 类 型 ， 如 INT、SMALLINT、TINYINT、BIGINT。FLOAT 和 DECIMAL 
则 不 予 支持 。 

口 日 期 类 型 ， 如 DATE 和 DATETIME。 其 余 的 日 期 类 型 不 子 支持 。 

口 字 符 串 类 型 ， 如 CHAR、VARCHAR、BINARY 和 VARBINARY。BLOB 和 TEXT 类 
型 不 予 支持 。 

对 于 日 期 类 型 的 分 区 ， 我 们 不 再 需要 YEAR() 和 TO_DAYS0O 函 数 了 ， 而 直接 可 以 使 用 
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COLUMNS, Zn: 


mysql> 


Query OK, 


同样 ， 可 以 直接 使 用 字符 串 的 分 区 : 


-> a int, 


-» b datetime)engine=innodb 
-» PARTITION BY RANGE COLUMNS (b)( 

p0 values less than ('2009-01-01'), 
pl values less than ('2010-01-01') 


-» partition 


-» partition 


> 0) 


0 rows 


create table t columns range( 


affected (0.00 sec) 


CREATE TABLE customers 1l ( 


first name VARCHAR(25), 


last name VARCHAR(25), 
street l1 VARCHAR(30), 
street 2 VARCHAR(30), 
city VARCHAR(15), 

renewal DATE 


) 


PARTITION BY LIST COLUMNS(city) 


PARTITION pRegion 1 
PARTITION pRegion 2 
PARTITION pRegion 3 
PARTITION 


E 


pRegion 4 


VALUES 
VALUES 
VALUES 
VALUES 


( 


IN('Oskarshamn', 'HÓgsby', 'Mónsterás'), 
IN('Vimmerby', 'Hultsfred', 'Vástervik'), 
IN('NóssjóÓ', 'Eksjó', 'Vetlanda'), 


IN('Uppvidinge', 'Alvesta', 'Vüxjo') 


对 于 RANGE COLUMNS 分 区 ， 可 以 使 用 多 个 列 进行 分 区 ， 如 : 


mysql> CREATE TABLE rcx ( 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


-> 


a INT, 
b INT, 

c CHAR(3), 
d INT 

) 
PARTITION 
PARTITION 
PARTITION 
PARTITION 
PARTITION 


); 


Partitioning 
1494 


Query OK, 


BY 
po 
pl 
p2 
p3 


RANGE COLUMNS(a,d,c) ( 


VALUES 
VALUES 
VALUES 
VALUES 


LESS 
LESS 
LESS 
LESS 


THAN 
THAN 
THAN 
THAN 


(5,10,'ggg'), 
(10,20,'mmmm'), 
(15,30,'sss'), 

(MAXVALUE, MAXVALUE, MAXVALUE) 


0 rows affected (0.15 sec) 


www.TopSage.com 


147 


148 


ge 


MySQL 数 据 库 版 本 5.5.0 开 始 支持 COLUMNS 分 区 ， 对 于 之 前 的 RANGE 和 LIST 分 区 , 
我 们 应 该 可 以 用 RANGE COLUMNS 和 LIST COLUMNS 分 区 进行 很 好 的 代替 。 


4.9.7 子 分 区 


子 分 区 (subpartitioning) 是 在 分 区 的 基础 上 再 进行 分 区 ， 有 时 也 称 这 种 分 区 为 复合 分 
区 (composite partitioning) 。MySQL 数 据 库 人 允许 在 RANGE 和 LIST 的 分 区 上 再 进行 HASH 
或 者 是 KEY 的 子 分 区 ， 如 : 


mysql> CREATE TABLE ts (a INT, b DATE)engine=innodb 
-> PARTITION BY RANGE( YEAR(b) ) 
-» SUBPARTITION BY HASH( TO DAYS(b) ) 
-» SUBPARTITIONS 2 ( 
-> PARTITION p0 VALUES LESS THAN (1990), 
-» PARTITION pl VALUES LESS THAN (2000), 
~> PARTITION p2 VALUES LESS THAN MAXVALUE 


=> Mf 


Query OK, 


0 rows affected (0.01 sec) 


mysql» system ls -lh /usr/local/mysql/data/test2/ts* 
mysql mysql 8.4K Aug 


-rw-rw---- 


-Irw-rw---- 


-IW-Irw---- 


-rw-rw---- 


-rw-rw---- 


-rW-rw---- 


-rw-rw---- 


-rw-rw---- 


1 
1 
1 
1 
1 
1 
1 
1 


mysql mysql 
mysql mysql 
mysql mysql 
mysql mysql 
mysql mysql 
mysql mysql 
mysql mysql 


96 Aug 
96K Aug 
96K Aug 
96K Aug 
96K Aug 
96K Aug 
96K Aug 


1 
1 
1 
1 
1 
1 
1 
1 


15: 
15: 
15: 
15: 
15: 
15: 
15: 
15: 


50 
5 
50 
50 
5 
5 
50 
50 


eo 


o o 


/usr/local/mysql/data/test2/ts.frm 

/usr/local/mysql/data/test2/ts.par 

/usr/local/mysql/data/test2/ts#P#p0#SP#p0sp0 . ibd 
/usr/local/mysql/data/test2/ts#P#p0#SP#p0sp1 . ibd 
/usr/local/mysql/data/test2/ts#P#pl#SP#plsp0.ibd 
/usr/local/mysql/data/test2/ts#P#pl#SP#plspl.ibd 
/usr/local/mysql/data/test2/ts#P#p2#SP#p2sp0.ibd 
/usr/local/mysql/data/test2/ts#P#p2#SP#p2spl.ibd 


表 ts 先 根据 b 列 进行 了 RANGE 分 区 ， 然 后 又 再 进行 了 一 次 HASH 分 区 ， 所 以 分 区 的 数量 
应 该 为 《3 x 2=) 6 个 ， 这 通过 查看 物理 磁盘 上 的 文件 也 可 以 得 到 证 实 。 我 们 也 可 以 通过 使 
用 SUBPARTITION 语 法 来 显 式 指出 各 个 子 分 区 的 名 称 ， 同 样 对 上 述 的 ts 表 : 


b DATE) 


mysql» CREATE TABLE 
-» PARTITION BY 
-» SUBPARTITION 
-» PARTITION pO 
-»: SUBPARTITION 
-» SUBPARTITION 


+>) 


-> PARTITION pl 


ts (a INT, 
RANGE( YEAR(b) ) 

BY HASH( TO_DAYS(b) ) ( 
VALUES LESS THAN (1990) ( 
s0, 
sl 


VALUES LESS THAN (2000) ( 


www.TopSage.com 


A 149 


-> SUBPARTITION s2, 

-> SUBPARTITION s3 

-> )， 

-> PARTITION p2 VALUES LESS THAN MAXVALUE ( 
-» SUBPARTITION s4, 

-» SUBPARTITION s5 

-> ) 

-> )i 


Query OK, 0 rows affected (0.00 sec) 


子 分 区 的 建立 需要 注意 以 下 几 个 问题 ， 
口 每 个 子 分 区 的 数量 必须 相同 。 
O 如 果 在 一 个 分 区 表 上 的 任何 分 区 上 使 用 SUBPARTITION 来 明确 定义 任何 子 分 区 ， 那 
么 就 必须 定义 所 有 的 子 分 区 。 因 此 下 面 的 创建 语句 是 错误 的 。 


mysql» CREATE TABLE ts (a INT, b DATE) 
-» PARTITION BY RANGE( YEAR(b) ) 
-» SUBPARTITION BY HASH( TO DAYS(b) ) ( 
-> PARTITION p0 VALUES LESS THAN (1990) ( 
-> SUBPARTITION s0, 
-> SUBPARTITION s1 
-> ), 
-> PARTITION pi VALUES LESS THAN (2000), 
-» PARTITION p2 VALUES LESS THAN MAXVALUE ( 
-» SUBPARTITION s2, 
-» SUBPARTITION s3 
-> ) 
22 de 
ERROR 1064 (42000): Wrong number of subpartitions defined, mismatch with 
previous setting near ' 
PARTITION p2 VALUES LESS THAN MAXVALUE ( 
SUBPARTITION s2, 
SUBPARTITION s3 
) 
)' at line 8 


口 每 个 SUBPARTITION 子 名 必须 包括 子 分 区 的 一 个 名 称 。 
口 在 每 个 分 区 内 ， 子 分 区 的 名 称 必 须 是 唯一 的 。 因 此 下 面 的 创建 语句 是 错误 的 。 


mysql» CREATE TABLE ts (a INT, b DATE) 
-» PARTITION BY RANGE( YEAR(b) ) 
-> SUBPARTITION BY HASH( TO DAYS(b) ) ( 
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| gg 


-» PARTITION pO 
SUBPARTITION 
SUBPARTITION 
) 

PARTITION pl 


SUBPARTITION 


-> 
-> 
-> 
-> 
-> 
-> 
> 0): 

PARTITION p2 
SUBPARTITION 
SUBPARTITION 


-> ) 


-> 
-> 


-> 


ees 


ERROR 1517 (HY000): 


SUBPARTITION. 


VALUES LESS THAN (1990) ( 
s0, 
s1 


VALUES LESS THAN (2000) ( 
s0, 
s1 


VALUES LESS THAN MAXVALUE ( 


s0, 


s1 


Duplicate partition name s0 


子 分 区 可 以 用 于 特别 大 的 表 ， 在 多 个 磁盘 间 分 别 分 配 数 据 和 索引 。 假 设 有 6 个 磁盘 ， 
分 别 为 /disk0、/disk1、/disk2 等 。 现 在 考虑 下 面 的 例子 : 


CREATE TABLE 
PARTITION BY 
SUBPARTITION 
PARTITION pO 
SUBPARTITION 


mysql» 
-> 
-> 
-> 
-> 
-> 
-> 
-> SUBPARTITION 

-> 

-> 

-> ); 

PARTITION pl 

SUBPARTITION 


-> 
-> 
-> 
-> 
-> SUBPARTITION 
-> 
-> 
-> )， 

PARTITION p2 


SUBPARTITION 


-> 
-> 
-> 
-> 
-> SUBPARTITION 
-> 


-> 


DATA DIRECTORY = 
INDEX DIRECTORY = 


DATA DIRECTORY = 
INDEX DIRECTORY 


DATA DIRECTORY = 
INDEX DIRECTORY = 


DATA DIRECTORY = 
INDEX DIRECTORY = 


DATA DIRECTORY = 
INDEX DIRECTORY = 


DATA DIRECTORY = 
INDEX DIRECTORY = 


ts (a INT, b DATE)ENGINE=MYISAM 
RANGE ( YEAR(b) ) 


BY HASH( TO DAYS(b) ) ( 
VALUES LESS THAN (2000) ( 
s0 

'/disk0/data' 

'/disk0/idx', 
sl 

'/diskl/data' 

= '/diskl/idx' 


VALUES LESS THAN (2010) ( 
s2 

'/disk2/data' 
'/disk2/idx', 

s3 

'/disk3/data' 
'/disk3/idx' 


VALUES LESS THAN MAXVALUE ( 


s4 
'/disk4/data' 
'/disk4/idx', 
s5 
'/disk5/data' 
'/disk5/idx' 
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-> ) 


-> di 


Query OK, 0 rows affected (0.02 sec) 


但 是 mnnoDB 存 储 引擎 会 忽略 DATA DIRECTORY #MINDEX DIRECTORY 语 法 ， 因 此 上 
述 分 区 表 的 数据 和 索引 文件 分 开放 置 对 其 是 无 效 的 : 


mysql> CREATE TABLE 
-» PARTITION BY 
-» SUBPARTITION 
-» PARTITION pO 


ts (a INT, b DATE)engine=innodb 
RANGE( YEAR(b) ) 

BY HASH( TO DAYS(b) ) ( 

VALUES LESS THAN (2000) ( 


-» SUBPARTITION s0 

-> DATA DIRECTORY = '/disk0/data' 
-> INDEX DIRECTORY = '/disk0/idx', 
-» SUBPARTITION sl 

-» DATA DIRECTORY - '/diskl/data' 
-» INDEX DIRECTORY = '/diskl/idx' 


-> ), 


-» PARTITION pl 


VALUES LESS THAN (2010) ( 


-» SUBPARTITION s2 

-» DATA DIRECTORY = '/disk2/data' 
-» INDEX DIRECTORY - '/disk2/idx', 
-» SUBPARTITION s3 

-» DATA DIRECTORY = '/disk3/data' 
-» INDEX DIRECTORY - '/disk3/idx' 


-> ), 


-> PARTITION p2 


VALUES LESS THAN MAXVALUE ( 


-> SUBPARTITION s4 

-> DATA DIRECTORY = '/disk4/data' 
-» INDEX DIRECTORY = '/disk4/idx', 
-» SUBPARTITION s5 

-» DATA DIRECTORY = '/disk5/data' 
-» INDEX DIRECTORY = '/disk5/idx' 


-> ) 


-> )i 


Query OK, 0 rows affected (0.02 sec) 


mysql> system ls -lh /usr/local/mysql/data/test2/ts* 


-rw-rw---- 1 mysql mysql 8.4K Aug 1 16:24 /usr/local/mysql/data/test2/ts.frm 
-rw-rw---- 1 mysql mysql 80 Aug 1 16:24 /usr/local/mysql/data/test2/ts.par 
-rw-rw---- 1 mysql mysql 96K Aug 1 16:25 /usr/local/mysql/data/test2/ts#P#p0#SP#s0.ibd 
-rw-rw---- 1 mysql mysql 96K Aug 1 16:25 /usr/local/mysql/data/test2/ts#P#p0#SP#sl.ibd 
-rw-rw---- l mysql mysql 96K Aug 1 16:25 /usr/local/mysql/data/test2/ts#P#pl#SP#s2.ibd 
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-rw-rw---- 1 mysql mysql 96K Aug 1 16:25 /usr/local/mysql/data/test2/ts#P#pl#SP#s3.ibd 
-rw-rw---- 1 mysql mysql 96K Aug 1 16:25 /usr/local/mysql/data/test2/ts#P#p2#SP#s4.ibd 
-rw-rw---- 1 mysql mysql 96K Aug 1 16:25 /usr/local/mysql/data/test2/ts#P#p2#SP#s5.ibd 


4.9.8 分 区 中 的 NULL 值 


MySQL 数 据 库 允许 对 NULL 值 做 分 区 ， 但 是 处 理 的 方法 和 Oracle 数 据 库 完 全 不 同 。 
MYSQL 数 据 库 的 分 区 总 是 把 NULL 值 视 为 小 于 任何 一 个 非 NULL 值 ， 这 和 MySQL 数 据 库 中 
对 于 NULL 的 ORDER BY 的 排序 是 一 样 的 。 因 此 对 于 不 同 的 分 区 类 型 ，MySQL 数 据 库 对 于 
NULL 值 的 处 理 是 不 一 样 的 。 

对 于 RANGE 分 区 ， 如 果 对 于 分 区 列 插入 了 NULL 值 ， 则 MySQL 数 据 库 会 将 该 值 放 人 最 
左边 的 分 区 《这 和 Oracle 数 据 库 完全 不 同 ，Oracle 数 据 库 会 将 NULIL 值 放 入 MAXVALUE 分 
区 中 )。 例 如 : 


mysql> create table t range( 
-» a int, 
-» b int)engine-innodb 
-> partition by range(b)( 
-> partition p0 values less than (10), 
-> partition pl values less than (20), 
-> partition p2 values less than maxvalue 
=> Na 


Query OK, 0 rows affected (0.01 sec) 


接着 往 表 中 插入 (1, 1) 和 (1, NULL) 两 条 数据 ， 并 观察 每 个 分 区 中 记录 的 数量 : 


mysql» insert into t range select 1,1; 
Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t_range select 1,NULL; 
Query OK, 1 row affected (0.00 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> select * from t_range\G; 

RKKKKKKKKKKKKKK KKK KKK KKK T row LIZEZEXZEZEZEZEZERREREREEREEEEEERREEREI 
a: 1 

b: 1 

KKKKKKKKKKKkKrrxkKkkKrkxKKrkkkkkkkkk 2. row LIEZZEZEREEREREEEZEZEREEERERREEEI 


a: 1 
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b: NULL 
2 rows in set (0.00 sec) 


mysql> select table name,partition name,table rows from information schema. 


PARTITIONS where table schema-database() and table name='t_range'\G; 

de fe e e e e e e hee eoe e eee dece e e e e e e € Li 1. LOW koe dee eoe e he e he oe ehe e e e e e e e e d 
table name: t range 

partition name: p0 
table rows: 2 

e oe he e eee ehe eee ee e e ee ee e ek e x à x De LOW ER A e e e ehe hee hee e e e de e e e e e e € 
table name: t range 

partition name: pl 
table rows: 0 

e de e de dee hee eoe oe eoe e ee e e e e e e n x6 x Xx 3. LOW ***okohode de de e e he e e e e he e ee e e e e e à 
table name: t range 

partition name: p2 
table rows: 0 


3 rows in set (0.00 sec) 


可 以 看 到 两 条 数据 都 放 人 了 p0 分 区 ， 也 就 是 说 明了 RANGE 分 区 下 ，NULL 值 会 放 人 最 
左边 的 分 区 中 。 另 外 需要 注意 的 是 ， 如 果 删 除 p0 这 个 分 区 ， 你 删除 的 是 小 于 10 的 记录 ， 并 
且 还 有 NULL 值 的 记录 ， 这 点 非常 重要 : 


mysql» alter table t range drop partition p0; 
Query OK, 0 rows affected (0.01 sec) 


Records: 0 Duplicates: 0 Warnings: 0 


mysql> select * from t_range; 
Empty set (0.00 sec) 


LIST 分 区 下 要 使 用 NULL 值 ， 则 必须 显 式 地 指出 哪个 分 区 中 放 入 NULL 值 ， 否 则 会 报 


an: 


mysql> create table t list( 
-> a int, 
-> b int)engine-innodb 
-» partition by list(b)( 
-» partition p0 values in (1,3,5,7,9), 
-» partition pl values in (0,2,4,6,8) 
pcc p; 


Query OK, 0 rows affected (0.00 sec) 


mysql> insert into t list select 1,NULL; 
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ERROR 1526 (HY000): Table has no partition for value NULL 


若 p0 分 区 允许 NULL 值 ， 则 插入 不 会 报错 ; 


mysql» create table t list( 
-» a int, 
-» b int)engine-innodb 
-» partition by list(b)( 
-> partition p0 values in (1,3,5,7,9,NULL), 
-> partition pl values in (0,2,4,6,8) 
=> Ji 


Query OK, 0 rows affected (0.00 sec) 


mysql> insert into t list select 1,NULL; 
Query OK, 1 row affected (0.00 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> select table_name,partition_name,table_rows from information_schema. 
PARTITIONS where table schema-database() and table_name='t_list'\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkk* l. LOW BERK kkk kkk ck ok ok ck ck ok ok ok ok ok kx ko kx Xxx 

table name: t list 
partition name: p0 

table rows: 1 
kkkkkk ce eoe eco ke c ke ok ko x ko ko ko ko Li 2. LOW ***XXXXXXXXXXXXXXXXXXXXXXx% 

table name: t list 
partition name: pl 

table rows: O0 


2 rows in set (0.00 sec) 


HASH 和 KEY 分 区 对 于 NULL 的 处 理 方式 ， 和 RANGE 分 区 、LIST 分 区 不 一 样 。 任 何 分 
区 函数 都 会 将 含有 NULL 值 的 记录 返回 为 0。 如 : 


mysql> create table t hash( 
-> a int, 
-> b int)engine=innodb 
-» partition by hash(b) 
-» partitions 4; 


Query OK, 0 rows affected (0.00 sec) 
mysql» insert into t hash select 1,0; 
Query OK, 1 row affected (0.00 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t_hash select 1,NULL; 
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Query OK, 1 row affected (0.01 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> select table_name,partition_name,table_rows from information_schema. 
PARTITIONS where table schema-database() and table name='t_hash'\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkkk La row KK RRR kk kk kk e x xx 
table name: t hash 
partition name: pO 
table rows: 2 
TET ke ke e ke e ee e e e e e X OX KR 2. row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
table_name: t_hash 
partition name: pl 
table rows: 0 
kkkkkkkkkkkkkkkkkkkkkkkkk kk 3. LOW *kXkXkkkkkkkkkkkkkkkkkkkkkkkkk 
table name: t hash 
partition name: p2 
table rows: 0 
FOI III ICI ke eke 4. row sce e ke coke cede e e ee e hee ce dee ee dee ek kx 
table name: t hash 
partition name: p3 
table rows: 0 


4 rows in set (0.00 sec) 


4.9.9 分 区 和 性 能 


我 常 听 到 开发 人 员 说 “对 表 做 个 分 区 ， 然 后 数据 库 的 查询 就 会 快 了 ”。 但 是 这 是 真 的 
吗 ? 实际 中 可 能 你 根本 感觉 不 到 查询 速度 的 提升 ， 其 至 是 查询 速度 急剧 的 下 降 。 因 此 ， 在 
合理 使 用 分 区 之 前 ， 必 须 了 解 分 区 的 使 用 环境 。 

数据 库 的 应 用 分 为 两 类 : 一 类 是 OLTP (在 线 事务 处 理 )， 如 博客 、 电 子 商 务 、 网 络 游 
戏 等 ， 另 一 类 是 OLAP (在 线 分 析 处 理 )， 如 数据 仓库 、 数 据 集 市 。 在 一 个 实际 的 应 用 环境 
中 ， 可 能 既 有 OLTP 的 应 用 ， 也 有 OLAP 的 应 用 。 如 网 络 游 戏 中 ， 玩 家 操作 的 游戏 数据 库 应 
用 就 是 OLTP 的 ， 但 是 游戏 厂商 可 能 需要 对 游戏 产生 的 日 志 进 行 分 析 ， 通 过 分 析 得 到 的 结 
果 来 更 好 地 服务 于 游戏 、 预 测 玩家 的 行为 等 ， 而 这 却 是 OLAP 的 应 用 。 

对 于 OLAP 的 应 用 ,分 区 的 确 可 以 很 好 地 提高 查询 的 性 能 ， 因 为 OLAP 应 用 的 大 多 数 查 
询 需 要 频繁 地 扫描 一 张 很 大 的 表 。 假 设 有 一 张 1 亿 行 的 表 ， 其 中 有 一 个 时 间 改 属性 列 。 你 
的 查询 需要 从 这 张 表 中 获取 一 年 的 数据 。 如 果 按 时 间 蕉 进行 分 区 ， 则 只 需要 扫描 相应 的 分 
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区 即 可 。 

对 于 OLTP 的 应 用 ， 分 区 应 该 非常 小 心 。 在 这 种 应 用 下 ， 不 可 能 会 获取 一 张大 表 中 10% 
的 数据 ， 大 部 分 都 是 通过 索引 返回 几 条 记录 即 可 。 而 根据 B+ 树 索引 的 原理 可 知 ， 对 于 一 张 
大 表 ， 一 般 的 B+ 树 需要 2 ~ 3 次 的 磁盘 IO (到 现在 我 都 没 看 到 过 4 层 的 B+ 树 索引 ) 。 因 此 B+ 
树 可 以 很 好 地 完成 操作 ， 不 需要 分 区 的 帮助 ， 并 且 设 计 不 好 的 分 区 会 带 来 严重 的 性 能 问题 。 

我 发 现 ， 很 多 开发 团队 会 认为 含有 1000 万 行 的 表 是 一 张 非常 巨大 的 表 ， 所 以 他 们 往往 
会 选择 采用 分 区 ， 如 对 主键 做 10 个 HASH 的 分 区 ， 这 样 每 个 分 区 就 只 有 100 万 行 的 数据 了 ， 
因此 查询 应 该 变 得 更 快 了 ， 如 SELECT * FROM TABLE WHERE PK=@pk, BÆR RAZ 
虚 过 这 样 一 个 问题 ，100 万 行 和 1000 万 行 的 数据 本 身 构成 的 B+ 树 的 层次 都 是 一 样 的 ， 可 能 
都 是 2 层 ? 那 么 上 述 走 主键 分 区 的 索引 并 不 会 带 来 性 能 的 提高 。 是 的 ， 即 使 1000 万 行 的 B+ 
树 的 高 度 是 3，100 万 行 的 B+ 树 的 高 度 是 2， 那 么 上 述 走 主键 分 区 的 索引 可 以 避免 1 次 IO， 
从 而 提高 查询 的 效率 。 咽 ， 这 没 问题 ， 但 是 这 张 表 只 有 主键 索引 ， 而 没有 任何 其 他 的 列 需 
要 查询 ? 如 果 还 有 类 似 如 下 的 语句 SQL: SELECT * FROM TABLE WHERE KEY=@key, 
这 时 对 于 KEY 的 查询 需要 扫描 所 有 的 10 个 分 区 ， 即 使 每 个 分 区 的 查询 开销 为 2 次 IO， 则 一 
共 需 要 20 次 IO。 而 对 于 原来 单 表 的 设计 ， 对 于 KEY 的 查询 还 是 2~3 次 IO。 如 下 表 Profile， 
根据 主键 ID 进行 了 HASH 分 区 ，HASH 分 区 的 数量 为 10， 表 Profile 有 接近 1000 万 行 的 数据 ， 


mysql> CREATE TABLE ‘Profile’ ( 


一 > 'id' int(11) NOT NULL AUTO INCREMENT, 

-> ‘nickname’ varchar(20) NOT NULL DEFAULT '' 

一 > 'password' varchar(32) NOT NULL DEFAULT '', - 
一 > 'sex' char(1) NOT NULL DEFAULT '' 

一 > ‘rdate' date NOT NULL DEFAULT '0000-00-00', 


-> PRIMARY KEY ('id'), 

-> KEY 'nickname' ('nickname') 
-» ) ENGINE-InnoDB 

-» partition by hash(id) 

-» partitions 10; 


Query OK, 0 rows affected (1.29 sec) 


mysql» select count(nickname) from Profile; 


c e ce ce che ke e eee ce eee eek ee kkk LA k k 1. COW kkkkkkkkkkkkkkkkkkk kkk ik kkk 


count(1): 9999248 


1 row in set (1 min 24.62 sec) 
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因为 是 根据 HASH 分 区 的 ， 因 此 每 个 区 分 的 记录 数 大 致 是 相同 的 ， 即 数据 分 布 比较 
均匀 : 


mysql> select table name,partition name,table rows from information schema. 

PARTITIONS where table schema-database() and table name='Profile'\G; 

ke echec ee eoe ede eoe ode he ce ee ke he e e Li Ta COW kk kk kk kk k kk kk kk kk kk kkkkk* 
table name: Profile 

partition name: p0 
table rows: 990703 

ke esee eek ehe ke ode he cech e eee e e kx x RE xn x 24 LOW *kkkkkkkkkkkkkkkkkkkkkkkkk* 
table name: Profile 

partition name: pl 
table rows: 1086519 

LCAZAZZEZZZZZZZZZZZZZZEZE RE k 3. LOW X**k*kkkkkkkkkkkkkkkkkkkkkkkk*k 
table name: Profile 

partition name: p2 
table rows: 976474 

kkkkkkkkkkkkkkkkkkkkkkk k kkk 4. LOW *k*kxkkkk kk kk k kk kc k kc k ko k ke ke kkk  k kx kk 
table name: Profile 

partition name: p3 
table rows: 986937 

LERXEEEXEZEZEEREEEZEEKREEZEZEZEEEEEI 5. LOW *kkkkkkkkkkk kk kkkkkkkkkkkk* 
table name: Profile 

partition name: p4 
table rows: 993667 

LEXXEEZXEZZEZEEKILZEEKZEKEEZEEEXI 6. LOW **kkkkkkk kkk kk kk kk k kk kk kk kkk 
table_name: Profile 

partition_name: p5 
table_rows: 978046 

kkkkkkkkkkkkkkkkkk kkk kkk kkk Js LOW **kkkkkkkkkkkkkkkkkkkkkkkkk* 
table name: Profile 

partition name: p6 
table rows: 990703 

LEXXEZEXEZEEEEEREEZZEEZEIEEZEEEII 8. LOW *kkkkkkkkkkkkkkkkkkkkkkkkkk* 
table name: Profile 

partition name: p7 
table rows: 978639 

ck okockokokokokock ko ko kok k kok kk kk ko kkkkkkkk 9. LOW kk kokok kk ok ko k ko k k ko k x x à kx kx kx x x x 
table name: Profile 

partition name: p8 
table rows: 1085334 


doe oe e eee e ce oe ce ee oe ecc e ee ex e E x 10. LOW **kkkkkkkkkkkktkkkkkkkkkkkkk* 


table name: Profile 
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partition name: p9 
table rows: 982788 
10 rows in set (0.80 sec) 


SEG: 即使 是 根据 自 增 长 主键 进行 的 HASH 分 区 ， 也 不 能 保证 分 区 数据 的 均 习 。 
因为 插入 的 自 增 长 ID 并 非 总 是 连续 的 ， 如 果 该 主键 值 因 为 某 种 原因 被 回 滚 了 ， 则 
该 值 将 不 会 再 次 被 自动 使 用 。 


如 果 进 行 主键 的 查询 ， 可 以 发 现 分 区 的 确 是 有 意义 的 : 


mysql»explain partitions select * from Profile where id=1\G; 
de e de de che he e eoe e ehe he ehe ce ee eoe ce ee e x E d li row 3 e he he e ce e he he ee ce eee he ce ehe e dede ce ce e x 
ids 1 
select type: SIMPLE 
table: Profile 
partitions: pl 
type: const 
possible keys: PRIMARY 
key: PRIMARY 
key len: 4 
ref: const 
rows: 1 
Extra: 


1 row in set (0.00 sec) 


可 以 发 现 只 寻找 了 p1 分 区 ， 但 是 对 于 表 Profile 中 nickname 列 索引 的 查询 ，EXPLAIN 
PARTITIONS 则 会 得 到 如 下 的 结果 : 


mysql» explain partitions select * from Profile where nickname='david'\G; 
e e de de e e he he ee hehe e ee e e e ke e e e e e e e x + A LOW ** dece de e e he he e e he he hee he e e e e de e he de 
id: 1 
select type: SIMPLE 
table: Profile 
partitions: p0,pl,p2,p3,p4,p5,p6,p7,p8,p9 
type: ref 
possible keys: nickname 
key: nickname 
key len: 62 
ref: const 
rows: 10 
Extra: Using where 


1 row in.set (0.00 sec) 
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可 以 看 到 ，MySQL 数 据 库 会 搜索 所 有 分 区 ， 因 此 查询 速度 会 慢 很 多 ， 比 较 上 述 的 语句 : 


mysql> select * from Profile where nickname='david'\G; 
KKKKKKKKKKKxKKxKxKkKrkKrkkkkrkKrKrkkkkkka 1. LOW Xk**kkkkkkkkkkkkkkkkkkkkkkkkkkk 
id: 5566 
nickname: david 
password: 3e35d1025659d07ae28e0069ec51ab92 
sex: M 
rdate: 2003-09-20 


1 row in set (1.05 sec) 


上 述 简单 的 索引 查找 语句 竟然 需要 1.05 秒 ， 这 显然 是 因为 搜索 所 有 分 区 的 关系 ， 实 际 的 
IO 执行 了 20 一 30 次 ， 在 未 分 区 的 同样 结构 和 大 小 的 表 上 执行 上 述 SQL 语 句 ， 只 需要 0.26 秒 。 

因此 对 于 使 用 InnoDB 存 储 引擎 作为 OLITP 应 用 的 表 ， 在 使 用 分 区 时 应 该 十 分 小 心 ， 设 
计时 要 确认 数据 的 访问 模式 ， 否 则 在 OLTP 应 用 下 分 区 可 能 不 仅 不 会 带 来 查询 速度 的 提高 ， 
反而 可 能 会 使 你 的 应 用 执行 得 更 慢 。 


4.10 小结 


读 完 这 一 章 后 ， 希 望 你 对 InnoDB 存 储 引 擎 表 有 了 一 个 更 深刻 的 理解 。 

在 这 一 章 中 ， 我 们 首先 介绍 了 InnoDB 存 储 引 擎 表 总 是 按照 主键 索引 顺序 进行 存放 的 。 

然后 深入 介绍 了 表 的 物理 实现 (如 行 结构 和 页 结构 )， 这 一 部 分 有 助 于 你 更 进一步 了 
解 表 物理 存储 的 底层 。 

接着 介绍 了 和 表 有 关 的 约束 问题 ，MySQL 通 过 约束 来 保证 表 中 数据 的 各 种 完整 性 ， 其 
中 也 提 到 了 有 关 InnoDB 存 储 引擎 支持 的 外 键 特性 。 

之 后 介绍 了 视图 ，MySQL 中 视图 总 是 虚拟 的 表 ， 本 身 不 支持 物化 视图 。 但 是 通过 一 些 
其 他 技巧 〈 如 触发 器 ) ， 同 样 也 可 以 实现 一 些 简 单 的 物化 视图 的 功能 。 

最 后 介绍 了 分 区 ，MySQL 数 据 库 支持 RANGE、LIST、HASH、KEY、 COLUMNS 分 
区 ， 并 且 可 以 使 用 HASH 或 者 KEY 来 进行 子 分 区 。 需 要 注意 的 是 ， 分 区 并 不 总 是 适合 于 
OLTP 应 用 ， 你 应 该 根据 自己 的 应 用 好 好 规划 自己 的 分 区 设计 。 
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索引 是 应 用 程序 设计 和 开发 的 一 个 重要 方面 。 如 果 索 引 太 多 ， 应 用 的 性 能 可 能 会 受到 
影响 ， 如 果 索 引 太 少 ， 对 查询 性 能 又 会 产生 影响 。 要 找到 一 个 合适 的 平衡 点 ， 这 对 应 用 的 
性 能 至 关 重 要 。 

一 些 开发 人 员 总 是 在 事后 才 想 起 添加 索引 一 一 我 一 直 认 为 ， 这 源 于 一 种 错误 的 开发 模 
式 。 如 果 知 道 数据 的 使 用 ， 从 一 开始 就 应 该 在 需要 处 添加 索引 。 开 发 人 员 对 于 数据 库 的 工 
作 往 往 停留 在 应 用 的 层面 ， 比 如 编写 SQL 语句 、 存 储 过 程 之 类 ， 他 们 甚至 可 能 不 知道 索引 
的 存在 ， 或 者 认为 事后 让 相关 DBA 加 上 即 可 。 而 DBA 往 往 不 了 解 业 务 的 数据 流 ， 添 加 索引 
需要 通过 监控 大 量 的 SQL 语 句 ， 从 中 找到 问题 。 这 个 步骤 需要 的 时 间 肯 定 是 大 于 初始 添加 
索引 所 需要 的 时 间 ， 并 且 可 能 会 遗漏 一 部 分 索引 。 当 然 索 引 不 是 越 多 越 好 ， 我 曾经 遇 到 这 
样 一 个 问题 : 某 台 MySQL 服 务 器 iostat 显 示 磁 盘 使 用 率 100% ， 经 过 分 析 后 发 现 ， 是 由 于 开 
发 人 员 添 加 了 太 多 的 索引 。 在 删除 一 些 不 必要 的 索引 之 后 ， 磁 盘 使 用 率 马 上 下 降 为 20%， 
因此 索引 的 添加 也 是 有 一 定 技巧 的 。 

这 一 章 的 主旨 是 对 InnoDB 存 储 引 擎 支持 的 索引 做 一 个 概述 , 深入 解析 索引 内 部 的 机 制 ， 
通过 了 解 索引 内 部 构造 掌握 在 哪里 可 以 使 用 索引 。 本 章 的 风格 和 别 的 有 关 MySQL 的 书籍 可 
能 有 所 不 同 ， 更 偏重 于 索引 内 部 的 实现 和 算法 问题 的 讨论 。 


5.1 InnoDB 存 储 引擎 索引 概述 


InnoDB 存 储 引 人 擎 支持 两 种 常见 的 索引 ， 一 种 是 B+ 树 索引 ， 另 一 种 是 哈 希 索引 。 前 面 
已 经 提 到 过 ，InnoDB 存 储 引擎 支持 的 哈 希 索 引 是 自 适 应 的 ，InnoDB 存 储 引 警 会 根据 表 的 
使 用 情况 自动 为 表 生 成 哈 希 索引 ， 不 能 人 为 干预 是 否 在 一 张 表 中 生成 哈 希 索引 。 

B+ 树 索引 就 是 传统 意义 上 的 索引 ， 这 是 目前 关系 型 数据 库 系统 中 最 常用 、 最 有 效 的 索 
引 。B+ 树 索引 的 构造 类 似 于 二 叉 树 ， 根 据 键 值 (Key Value) 快速 找到 数据 。 需 要 注意 的 
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“是 ，B+ 树 中 的 B 不 是 代表 二 又 (binary ) ， 而 是 代表 平衡 (balance) ， 因 为 B+ 树 是 从 最 早 的 
平衡 二 又 树 演化 而 来 ， 但 是 B+ 树 不 是 一 个 二 叉 树 。 

一 个 常常 被 DBA 忽 视 的 问题 是 ，B+ 树 索引 并 不 能 找到 一 个 给 定 键 值 的 具体 行 。B+ 树 
索引 能 找到 的 只 是 被 查找 数据 行 所 在 的 页 。 然 后 数据 库 通过 把 责 读 人 内 存 ， 再 在 内 存 中 进 
行 查找 ， 最 后 得 到 查找 的 数据 。 


5.2 二 分 查找 法 


二 分 查找 法 (binary search) 也 称 为 折 半 查找 法 ， 用 来 查找 一 组 有 序 的 记录 数组 中 的 
某 一 记录 。 其 基本 思想 是 : 将 记录 按 有 序 化 (递增 或 递减 ) 排列 ， 查 找 过 程 中 采用 跳跃 式 
方式 查找 ， 即 先 以 有 序数 列 的 中 点 位 置 为 比较 对 象 ， 如 果 要 找 的 元 素 值 小 于 该 中 点 元 素 ， 
则 将 待 查 序 列 缩小 为 左 半 部 分 ， 否 则 为 右 半 部 分 。 通 过 一 次 比较 ， 将 查找 区 间 缩 小 一 半 。 

例如 我 们 有 5、10、19、21、31、37、42、48、50、52 这 10 个 数 ， 现 要 从 这 10 个 数 中 
查找 48 这 条 记录 ， 其 查找 过 程 如 图 $-1 所 示 。 


21 31 37 42 48 


21 31 37 42 48 





21 31 57 xs 


RISI 二 分 查找 法 


从 图 5-1 可 以 看 出 ， 用 了 3 次 就 找到 了 48 这 个 数 。 如 果 是 顺序 查找 的 话 ， 则 需要 8 次 。 因 
此 二 分 查找 法 的 效率 比 硕 序 查找 法 要 好 (平均 来 说 )。 但 如 果 查 5 这 条 记录 ， 顺 序 查找 只 需 
1 次 ， 而 二 分 查找 法 却 需要 4 次 。 对 于 上 面 10 个 数 来 说 ， 顺 序 查 找 的 平均 查找 次 数 为 
(1+2+3+4+5+6+7+8+9+10) /10=5.5 次 ， 而 二 分 查找 法 为 (4+3+2+4+3+1+4+3+2+3) / 
10=2.9 次 。 在 最 坏 的 情况 下 ， 顺 序 查找 的 次 数 为 10， 而 二 分 查找 的 次 数 为 4。 | 

二 分 查找 法 的 应 用 极其 广泛 ， 而 且 它 的 思想 易于 理解 。 第 一 个 二 分 查找 算法 早 在 1946 
年 就 出 现 了 ,但 是 第 一 个 完全 正确 的 二 分 查找 算法 直到 1962 年 才 出 现 。 在 前 面 的 章节 中 ， 
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我 们 已 经 知道 了 ， 每 页 Page Directory PRIA fc REEFF, STAT RUBUS 
录 的 查询 是 通过 对 Page Directory 进 行 二 分 查找 得 到 的 。 

5.3 平衡 二 叉 树 


在 介绍 B+ 树 前 , 先 要 了 解 一 下 二 又 查找 树 。B+ 树 是 通过 二 又 查找 树 , 再 由 平衡 二 又 树 、 
B 树 演化 而 来 。 相 信和 在 任何 一 本 有 关 数 据 结构 的 书 中 都 可 以 找到 二 又 查找 树 的 章节 ， 二 叉 
查找 树 是 一 种 经 典 的 数据 结构 。 图 5-2 显 示 了 一 颗 二 又 查找 树 。 





图 5-2 二 叉 查找 树 


图 5-2 中 的 数字 代表 每 个 节点 的 键 值 , 二 又 查找 树 中 , 左 子 树 的 键 值 总 是 小 于 根 的 键 值 ， 
右 子 树 的 键 值 总 是 大 于 根 的 键 值 。 因 此 可 以 通过 中 序 遍 历 得 到 键 值 的 排序 输出 ， 图 5-2 中 
序 遍 历 后 输出 : 2、3、5、6、7、8。 

对 图 5-2 的 这 颗 二 又 树 进行 查找 ,如 查 键 值 为 5 的 记录 ， 先 找到 根 ， 其 键 值 是 6，6 大 于 5， 
因此 找 6 的 左 子 树 ， 找 到 3， 而 5 大 于 3， 再 找 右 子 树 …… 一 共 找 了 3 次 。 如 果 按 2、3、5、6、 
7、8 的 顺序 来 找 同样 需要 3 次 。 用 同样 的 方法 再 找 键 值 为 8 的 这 个 记录 ， 这 次 用 了 3 次 查找 ， 
而 顺序 查找 时 需要 6 次 。 计 算 平 均 查 找 次 数 可 得 : 顺序 查找 的 平均 查找 次 数 为 (0342434 
4+5+6) /6=3.3 次 ， 二 又 查找 树 的 平均 查找 次 数 为 (34343424241) /16=2.3 次 。 二 又 查找 树 
比 顺 序 查 找 快 。 

二 又 查找 树 可 以 任意 构造 ， 同 样 的 、3、5、6、7、8 这 五 个 数字 ， 也 可 以 按照 图 5-3 所 
示 的 方式 建立 二 又 查找 树 。 
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7 
fox 
6 8 
图 5-3 效率 较 低 的 一 颗 二 又 查找 树 


图 5-3 的 平均 查找 次 数 为 (1+2+3+4+5+5) /6=3.16 次 ， 和 顺序 查找 差不多 。 显 然 这 次 
二 又 查找 树 的 效率 就 低 了 。 因 此 若 想 最 大 性 能 地 构造 一 个 二 又 查找 树 ， 需 要 这 颗 二 又 查找 
树 是 平衡 的 ， 因 此 引出 了 新 的 定义 一 平衡 二 又 树 ， 或 称 为 AVL 树 。 

平衡 二 又 树 的 定义 如 下 : 首先 符合 二 又 查找 树 的 定义 ， 其 次 必须 满足 任何 节点 的 左右 
两 个 子 树 的 高 度 最 大 差 为 1。 显 然 ， 图 5-3 不 满足 平衡 二 又 树 的 定义 ， 而 图 5-2 是 一 颗 平衡 二 
又 树 。 平 衡 二 又 树 对 于 查找 的 性 能 是 比较 高 的 ， 但 不 是 最 高 的 ， 只 是 接近 最 高 性 能 。 要 达 
到 最 好 的 性 能 ， 需要 建立 一 颗 最 优 二 又 树 ,但 是 最 优 二 又 树 的 建立 和 维护 需要 大 量 的 操作 ， 
因此 我 们 一 般 只 需 建立 一 颗 平衡 二 又 树 即 可 。 

平衡 二 又 树 对 于 查询 速度 的 确 很 快 ， 但 是 维护 一 颗 平衡 二 又 树 的 代价 是 非常 大 的 ， 通 
常 需要 1 次 或 多 次 左旋 和 右 旋 来 得 到 插入 或 更 新 后 树 的 平衡 性 。 如 图 5-2 所 示 的 平衡 树 ， 当 
我 们 需要 插入 一 个 新 的 键 值 为 9 的 节点 时 ， 需 要 做 如 图 5-4 所 示 的 变动 。 


/N ÁN 
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PE. 
p 
gah 
插入 新 值 9 左旋 以 保证 平衡 
图 5-4 插入 键 值 9, 平衡 二 又 树 的 变化 
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这 里 通过 一 次 左旋 操作 就 将 插入 后 的 树 重新 变 为 平衡 的 了 。 但 是 有 的 情况 下 可 能 需要 
多 次 旋转 ， 如 图 5-5 所 示 。 


à 2 
/ N FA 
1 5 1 (5 
/ Z 
/ 
3 * 
平衡 二 又 树 插入 新 键 值 3 
2° 4. 
7 ars 
ub) Uh. mo ge 
AES "s ND 
UA dl de wx 59 
we A l 
3 
右 旋 一 次 再 左旋 一 次 


图 5-5 需 多 次 旋转 的 平衡 二 又 树 


图 5-4 和 图 5-5 中 例 举 了 向 一 颗 平 衡 二 又 树 插 入 一 个 新 的 节点 后 ,平衡 二 又 树 需要 做 的 
旋转 操作 。 除 了 插入 操作 ， 还 有 更 新 和 删除 操作 ， 不 过 这 和 插入 没有 本 质 的 区 别 ， 它 们 都 
是 通过 左旋 或 者 右 旋 来 完成 的 。 因 此 对 于 一 颗 平 衡 二 又 树 的 维护 是 有 一 定 开 销 的， 不 过 平 
衡 二 叉 树 多 用 于 内 存 结构 对 象 中 ， 因 此 维护 的 开销 相对 较 小 。 


5.4 B+ 树 


B+ 树 和 二 又 树 、 平 衡 二 又 树 一 样 ， 都 是 经 典 的 数据 结构 。B+ 树 由 B 树 和 索引 顺序 访问 
方法 (ISAM， 是 不 是 很 熟悉 ? 对， 这 也 是 MyISAM3 引 区 最初 参 考 的 数据 结构 ) 演化 而 来 ， 
但 是 在 实际 使 用 过 程 中 几乎 已 经 没有 使 用 B 树 的 情况 了 。 

B+ 树 的 定义 相信 在 任何 一 本 数据 结构 书 中 都 能 找到 ， 其 定义 十 分 复杂 ， 相 信 这 里 我 列 
出 来 只 会 让 大 家 更 困惑 。 因 此 只 简要 地 介绍 B+ 树 : B+ 树 是 为 磁盘 或 其 他 直接 存 取 辅 助 设 


www.TopSage.com 


RISA 165 


备 而 设计 的 一 种 平衡 查找 树 ， 在 B+ 树 中 ， 所 有 记录 节点 都 是 按键 值 的 大 小 顺序 存放 在 同一 
层 的 叶 节 点 中 ， 各 叶 节 点 指针 进行 连接 。 SIDES BS 其 高 度 为 2， 每 页 可 存放 4 
Rida, mH (fan out) 45, 





图 5-6 一 棵 高 度 为 2 的 B+ 树 


从 图 5-6 可 以 看 出 ， 所 有 记录 都 在 叶 节 点 中 ， 并 且 是 顺序 存放 的 ， 如 果 我 们 从 最 左边 的 
叶 节 点 开始 顺序 遍历 ， 可 以 得 到 所 有 键 值 的 顺序 排序 : 5. 10, 15, 20, 25. 30, 50, 55, 
60, 65, 75, 80, 85, 90, 


5.4.1. B+ 树 的 插入 操作 


B+ 树 的 插入 必须 保证 插入 后 叶 节点 中 的 记录 依然 排序 ， 同 时 需要 考虑 插入 B+ 树 的 三 种 
情况 ， 每 种 情况 都 可 能 会 导致 不 同 的 插入 算法 ， 如 表 5-1 所 示 。 
表 5-1 B+ 树 插入 的 3 种 情况 


Leaf Page Full Index Page Full 操作 
No No 直接 将 记录 插入 叶 节 点 
1. 拆 分 Leaf Page 


2. 将 中 间 的 节点 放 入 Index Page 中 

3. 小 于 中 间 节 点 的 记录 放 左 边 

4. 大 于 等 于 中 间 节 点 的 记录 放 右边 
1. 拆 分 Leaf Page 

2. 小 于 中 间 节 点 的 记录 放 左 边 

3. 大 于 等 于 中 间 节 点 的 记录 放 右 边 
Yes Yes 4. 拆 分 Index Page 

5. 小 于 中 间 节 点 的 记录 放 左 边 

6. 大 于 中 间 节 点 的 记录 放 右 边 

7. 中间 节点 放 入 上 一 层 Index Page 








我 们 用 实例 来 分 析 B+ 树 的 插入 ， 对 于 图 5-6 中 的 这 颗 B+ 树 ， 我 们 插入 28 这 个 键 值 ， 发 
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现 当前 Leaf Page 和 Index Page 都 没有 满 ， 我 们 直接 插入 就 可 以 了 。 之 后 得 到 图 5-7。 





图 5-7 插入 键 值 28 
这 次 我 们 再 插入 一 条 70 这 个 键 值 ， 这 时 原先 的 Leaf Page 已 经 满 了 ， 但 是 Index Page 还 
没有 满 ， 符 合 表 5-1 的 第 二 种 情况 ， 这 时 插入 Leaf Page 后 的 情况 为 55、55、60、65、70。 
我 们 根据 中 间 的 值 60 拆 分 叶 节 点 ， 可 得 到 图 5-8。 





图 5-8 插入 键 值 70 


因为 图 片 显示 的 关系 ， 这 次 我 没有 能 在 各 叶 节 点 加 上 双向 链表 指针 。 不 过 和 图 5-6、 
图 5-7 一 样 ， 它 还 是 存在 的 。 最 后 我 们 来 插入 记录 95， 这 时 符合 表 5-1 讨 论 的 第 三 种 情况 ， 
Leaf Page 和 Index Page 都 满 了 ， 这 时 需要 做 两 次 拆 分 ， 如 图 5-9 所 示 : 

可 以 看 到 ， 不 管 怎么 变化 ，B+ 树 总 是 会 保持 平衡 。 但 是 为 了 保持 平衡 ， 对 于 新 插入 的 
键 值 可 能 需要 做 大 量 的 拆 分 页 (split) 操作 ， 而 B+ 树 主要 用 于 磁盘 ， 因 此 页 的 拆 分 意味 着 
磁盘 的 操作 ， 应 该 在 可 能 的 情况 下 尽量 减少 页 的 拆 分 。 因 此 ，B+ 树 提供 了 旋转 (rotation) 
的 功能 。 

旋转 发 生 在 Leaf Page 已 经 满 了 、 但 是 其 左右 兄弟 节点 没有 满 的 情况 下 。 这 时 B+ 树 并 不 
会 急于 去 做 拆 分 页 的 操作 ， 而 是 将 记录 移 到 所 在 页 的 兄弟 节点 上 。 通 常情 况 下 ， 左 兄弟 被 
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首先 检查 用 来 做 旋转 操作 ， 因 此 我 们 再 来 看 图 5-7 的 情况 ， 这 时 我 们 插入 键 值 720， 其 实 B+ 
树 并 不 会 急于 去 拆 分 叶 节 点 ， 而 是 做 旋转 ， 得 到 如 图 5-10 所 示 的 操作 。 


re X PEST E ae 
1 j A 


BoB ET d ESTER Eee 
Ai Ee 


图 5-9 插入 键 值 95 





(Ea eM aoe 
图 5-10 B+ 树 的 旋转 操作 

从 图 5-10 可 以 看 到 ， 采 用 旋转 操作 使 B+ 树 减少 了 一 次 页 的 拆 分 操作 ， 而 这 时 B+ 树 的 高 
5.4.2 B+ 树 的 删除 操作 

B+ 树 使 用 填充 因子 (fill factor) 来 控制 树 的 删除 变化 ，50% 是 填充 因子 可 设 的 最 小 值 。 
B+ 树 的 删除 操作 同样 必须 保证 删除 后 叶 布 点 中 的 记录 依然 排序 ， 同 插入 一 样 ，B+ 树 的 删 
除 操作 同样 需要 考虑 如 表 5-2 所 示 的 三 种 情况 ， 与 插入 不 同 的 是 ， 删 除根 据 填充 因子 的 变 
化 来 衡量 。 
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5-2 B+ 树 删 除 操作 


Leaf Page Below Fill Factor Index Page Below Fill Factor 操作 
No No 直接 将 记录 从 叶 节 点 删除 ， 如 果 该 节点 还 是 Index Page 
的 节点 ， 则 用 该 节点 的 右 节点 代替 
Yes No 合并 叶 节 点 及 其 兄弟 节点 ， 同 时 更 新 Index Page 
1. 合并 叶 节 点 及 其 兄弟 节点 
Yes Yes 2. 更 新 Index Page 


3. 合并 Index Page 及 其 兄弟 节点 


我 们 根据 图 5-9 的 B+ 树 来 进行 删除 操作 。 首 先 ， 删 除 键 值 为 70 的 这 条 记录 ， 该 记录 符 
合 表 5-2 讨 论 的 第 一 种 情况 ， 删 除 后 可 得 到 图 5-11。 


dell IL T es IL I 
! 5 


Bono oon epe] p. 
ajas | ajej | Jisas] | 


图 5-11 删除 键 值 70 


接着 我 们 删除 键 值 为 25 的 记录 ， 这 也 是 表 5-2 讨 论 的 第 一 种 情况 ， 但 是 该 值 还 是 Index 
Page 中 的 值 ， 因 此 在 删除 Leaf Page 中 25 的 值 后 ， 还 应 将 25 的 右 兄弟 节点 的 28 更 新 到 Page 
Index 中 ， 最 后 可 得 到 图 5-12。 

最 后 我 们 来 看 删除 键 值 为 60 的 情况 ， 删 除 Leaf Page 中 键 值 为 60 的 记录 后 ， 填 充 因子 小 
于 50%， 这 时 需要 做 合并 操作 ， 同 样 ， 在 删除 Index Page 中 相关 记录 后 需要 做 Index Page 的 
合并 操作 ， 最 后 得 到 图 5-13。 
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Hep cw qu pum s. 
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图 5-12 删除 键 值 25 





图 5-13 删除 键 值 60 


5.5 B+ 树 索 引 


前 面 我 们 讨论 的 都 是 B+ 树 的 数据 结构 及 其 一 般 操作 ，B+ 树 索引 其 本 质 就 是 B+ 树 在 数 
据 库 中 的 实现 ， 但 是 B+ 素 引 在 数据 库 中 有 一 个 特点 就 是 其 高 扇 出 性 ， 因 此 在 数据 库 中 ， 
B+ 树 的 高 度 一 般 都 在 2 一 3 层 ， 也 就 是 对 于 查找 某 一 键 值 的 行 记录 ， 最 多 只 需要 2 到 3 次 10， 
这 倒 不 错 。 因 为 我 们 知道 现在 一 般 的 磁盘 每 秒 至 少 可 以 做 100 次 1O，2~ 3 次 的 IO 意味 着 查 
询 时 间 只 需 0.02~0.03 秒 。 

数据 库 中 的 B+ 树 索 引 可 以 分 为 聚集 索引 (clustered index) 和 辅助 聚集 索引 (secondary 
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index) © ， 但 是 不 管 是 聚集 还 是 非 聚 集 的 索引 ， 其 内 部 都 是 B+ 树 的 ， 即 高 度 平衡 的 ， 叶 
节点 存放 着 所 有 的 数据 。 聚 集 素 引 与 非 聚集 索引 不 同 的 是 ， 叶 节点 存放 的 是 否 是 一 整 行 
的 信息 。 


5.5.1 聚集 索引 


之 前 已 经 介绍 过 了 ,InnoDB 存 储 引 擎 表 是 索引 组 织 表 , 即 表 中 数据 按照 主键 顺序 存放 。 
而 聚集 索引 就 是 按照 每 张 表 的 主键 构造 一 颗 B+ 树 ， 并 且 叶 节点 中 存放 着 整 张 表 的 行 记录 
数据 ， 因 此 也 让 聚集 索引 的 叶 节 点 成 为 数据 页 。 聚 集 索引 的 这 个 特性 决定 了 索引 组 织 
中 数据 也 是 索引 的 一 部 分 。 同 B+ 树 数 据 结构 一 样 ， 每 个 数据 页 都 通过 一 个 双向 链表 来 进 
行 链接 。 ' 

由 于 实际 的 数据 页 只 能 按照 一 颗 B+ 树 进行 排序 ， 因 此 每 张 表 只 能 拥有 一 个 聚集 索引 。 
在 许多 情况 下 ， 查 询 优化 器 非常 倾向 于 采用 聚集 索引 ， 因 为 聚集 索引 能 够 让 我 们 在 索引 的 
叶 节 点 上 直接 找到 数据 。 此 外 ， 由 于 定义 了 数据 的 逻辑 顺序 ， 聚 集 索 引 能 够 特别 快 地 访问 
针对 范围 值 的 查询 。 查 询 优 化 器 能 够 快速 发 现 某 一 段 范围 的 数据 页 需要 扫描 。 

现在 我 们 来 看 一 张 表 ， 我 们 以 人 为 的 方式 让 其 每 个 页 只 能 存放 两 个 行 记录 ， 如 : 


mysql» create table t (a int not null primary key , b varchar(8000)); 
Query OK, 0 rows affected (0.30 sec) 


mysql» insert into t select l,repeat('a',7000); 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql» insert into t select 2,repeat('a',7000); 
Query OK, 1 row affected (0.02 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 3,repeat('a',7000); 
Query OK, 1 row affected (0.01 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 4,repeat('a',7000); 
Query OK, 1 row affected (0.05 sec) 


O 辅助 诊 集 索引 有 时 也 称 非 聚 集 索 引 (non-clustered index), 
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Records: 1 Duplicates: 0 Warnings: 0 


可 以 看 到 ， 我 们 表 的 定义 和 插入 方式 使 得 目前 每 个 页 只 能 存放 两 个 行 记录 ， 我 们 用 
py_innodb_page_info 工 具 来 分 析 表 空间 ， 可 得 : 


[rooténineyou0-43 data]# py innodb page info.py -v mytest/t.ibd 
page offset 00000000, page type «File Space Header» 

page offset 00000001, page type «Insert Buffer Bitmap» 

page offset 00000002, page type «File Segment inode> 

page offset 00000003, page type «B-tree Node», page level «0001» 
page offset 00000004, page type «B-tree Node», page level «0000» 
page offset 00000005, page type «B-tree Node», page level «0000» 
page offset 00000006, page type «B-tree Node», page level «0000» 
page offset 00000000, page type «Freshly Allocated Page> 

Total number of page: 8: 

Freshly Allocated Page: 1 

Insert Buffer Bitmap: 1 

File Space Header: 1 

B-tree Node: 4 


File Segment inode: 1 


page level 为 0000 的 即 是 数据 页 ， 前 面 的 章节 也 对 数据 页 进行 了 分 析 ， 这 不 是 我 们 当前 
所 关注 的 部 分 。 我 们 要 分 析 的 是 page leve] 为 0001 的 页 ， 该 页 是 B+ 树 的 根 ， 我 们 来 看 看 索 
引 的 根 页 中 存放 的 数据 ; 


0000c000 c2 33 62 95 00 00 00 03 ff ff ff ff ff ff ff ff |.3b.............| 
0000c010 00 00 00 0a b6 8c ce 57 45 bf 00 00 00 00 00 00 |....... WE.......| 
0000c020 00 00 00 00 00 £9 00 02 00 a2 80 05 00 00 00 00 |................] 
0000c030 00 9a 00 02 00 02 00 03 00 00 00 00 0000 00 00 [|]................ | 
0000c040 00 01 00 00 00 00 00 00 01 e2 00 00 00 £9 00 00 ]............. | 
0000c050 00 02 00 £2 00 00 00 £9 00 00 00 02 00 32 01000 |............. 2..| 
0000c060 02 00 1b 69 6e 66 69 6d 75 6d 00 04 00 Ob 00 00 |...infimum......| 
0000c070 73 75 70 72 65 6d 75 6d 00 10 00 11 00 Oe 80 00 |supremum........ 
0000c080 00 01 00 00 00 04 00 00 00 19 00 de 80 00 00 02. |................ 
0000c090 00 00 00 05 00 00 00 21 ff dé 80 00 00 04 00 00 li rina 
0000c0a0 00 06 00 00 00 00 00 00 00 00 00 00 00 00 00 00 |................ 
0000c0bO0 00 00 00 00 00 00 00 00 00 00 00 0000 00 00 00 |................ 
0000c0cO 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ]............. | 


s.s.s.. 


0000fffo 00 00 00 00 00 70 00 63 73 d8 52 3a b6 8c ce 57 |..... p.cs.R:...W 





我 们 直接 通过 页 尾 的 Page DirectoryR AH, M00 63 可 以 知道 该 页 中 行 开始 的 位 置 。 
接着 通过 Recorder Header 来 分 析 ，0xc063 开 始 的 值 为 69 6e 66 69 6d 75 6d 00， 就 代表 
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infimum 伪 行 记 录 。 之 前 的 5 个 字 节 01 00 02 00 lb 就 是 Recorder Header， 分 析 第 4 位 到 第 8 位 
的 值 1 代 表 该 行 记录 中 只 有 一 个 记录 (需要 记 住 的 是 ，InnoDB 的 Page Directory Mb), 
即 infimum 记 录 本 身 。 我 们 通过 Recorder Header 中 最 后 的 两 个 字 市 00 1b 来 判断 下 一 条 记录 
的 位 置 ， 即 c063+1b=c073， 读 取 键 值 可 得 80 01， 就 是 主键 为 1 的 键 值 (我 们 制定 的 INT 是 
无 符号 的 ， 因 此 二 进 制 是 0x8001， 而 不 是 0x0001)，80 01 后 值 00 00 00 04 代 表 指 向 数据 页 
的 页 号 。 以 同样 的 方式 ， 可 以 找到 80 02 和 80 04 这 两 个 键 值 以 及 它们 指向 的 数据 页 。 

通过 以 上 对 于 非 数 据 页 节点 的 分 析 ， 我 们 发 现 数据 页 上 存放 的 是 完整 的 行 记 录 ， 而 在 
韭 数 据 页 的 索引 页 中 ， 存 放 的 仅仅 是 键 值 以 及 指向 数据 页 的 偏 移 量 ， 而 不 是 一 个 完整 的 行 
记录 。 因 此 我 们 构造 的 这 颗 二 叉 树 大 致 如 图 $-14 所 示 。 


Page Offset: 00 03 ( 根 节 点 ) 


Key: 80 00 00 01 Key: 80 00 00 02 Key: 80 00 00 04 
Pointer: 00 04 Pointer: 00 05 Pointer: 00 06 


Page Offset: 00 04 Page Offset: 00 05 Page Offset: 00 06 


| | | 2， t (‘a’, 7000 di 
1, repeat (‘a’, 7000) Repeat a ) 4, repeat (‘a’, 7000) 
3, repeat (‘a’, 7000) 


图 5-14 B+ 树 索引 





许多 数据 库 的 文档 会 这 样 告诉 读者 : 聚集 索引 按照 顺序 物理 地 存储 数据 。 如 果 看 图 
5-14， 可 能 也 会 有 这 样 的 感觉 。 但 是 试想 ， 如 果 聚 集 索 引 必 须 按照 特定 顺序 存放 物理 记录 
的 话 ， 则 维护 成 本 即 显得 非常 之 高 了 。 所 以 ， 聚 集 索引 的 存储 并 不 是 物理 上 的 连续 ， 相 反 
是 逻辑 上 连续 的 。 这 其 中 有 两 点 :一 是 我 们 前 面 说 过 的 页 通过 双向 链表 链接 ， 页 按照 主键 
的 顺序 排列 。 另 一 点 是 每 个 页 中 的 记录 也 是 通过 双向 链表 进行 维护 ， 物 理 存储 上 可 以 同样 
不 按照 主键 存储 。 

聚集 索引 的 另 一 个 好 处 是 ， 它 对 于 主键 的 排序 查找 和 范围 查找 速度 非常 快 。 叶 节点 的 
数据 就 是 我 们 要 查询 的 数据 ， 如 我 们 要 查询 一 张 注册 用 户 的 表 ， 查 询 最 后 注册 的 10 位 用 户 ， 
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由 于 B+ 树 索引 是 双向 链表 的 ， 我 们 可 以 快速 找到 最 后 一 个 数据 页 ， 并 取出 10 条 记录 ， 我 们 


用 Explain 进 行 分 析 ， 可 得 : 


mysql» explain select * from Profile order by id limit 10\G; 


3e de ee echec de de e e e e e e de e de d n de e x kx x 1, 
id: 

select type: 
table: 

type: 

possible keys: 
key: 

key len: 

ref: 

rows: 

Extra: 


LOW *X*KKKKKKKKKKKKKKAKKKKKKKKKk* 


1 
SIMPLE 
Profile 
index 
NULL 
PRIMARY 
4 

NULL 

10 


1 row in set (0.00 sec) 


另 一 个 是 范围 查询 (range query) ， 如 果 要 查找 主键 某 一 范围 内 的 数据 ， 通 过 叶 节点 的 


上 层 中 间 节 点 就 可 以 得 到 页 的 范围 ， 之 后 直接 读 取 数 据 页 即 可 ， 又 如 : 


mysql» explain select * from Profile where id>10 and id<10000\G; 


c e ee e he e e ee e e e e e e e e e e e x x xx 1, 
id: 

select type: 
table: 

type: 

possible keys: 
key: 

key len: 

ref: 

rows: 


Extra: 


row e e e e dee ede eoe ee ee oe eoe dee oe e he e n e xn G x 


1 

SIMPLE 
Profile 
range 
PRIMARY 
PRIMARY 
4 

NULL 
14868 


Using where 


1 row in set (0.01 sec) 


Explain 得 到 了 MySQL 的 执行 计划 (execute plan)， 并且 rows 列 给 出 了 一 个 查询 结果 的 
预 估 返回 行 数 。 要 注意 的 是 ，rows 代 表 的 是 一 个 预 估 值 ， 不 是 确切 的 值 ， 如 果 我 们 实际 进 
行 这 句 SQL 的 查询 ， 可 以 看 到 实际 上 只 有 9 946 行 记录 : 


mysql» select count(*) from Profile where id>10 and id«10000; 
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1 row in set (0.00 sec) 


5.5.2 辅助 索引 


对 于 辅助 索引 (也 称 非 聚集 索引 ) ， 叶 级 别 不 包含 行 的 全 部 数据 。 叶 节点 除了 包含 键 
值 以 外 ， 每 全 叶 级 别 中 的 索引 行 中 还 包含 了 一 个 书签 (bookmark) ， 该 书签 用 来 告诉 
InnoDB 存 储 引 擎 ， 哪 里 可 以 找到 与 索引 相对 应 的 行 数据 。 因 为 InnoDB 存 储 引 擎 表 是 索引 

组 织 表 ， 因 此 InnoDB 存 储 引擎 的 辅助 索引 的 书签 就 是 相应 行 数据 的 聚集 索引 键 。 图 5-15 
显示 了 InnoDB 存 储 引 敬 中 辅助 索引 与 聚集 索引 的 关系 。 








图 5-15 辅助 索引 与 聚集 索引 的 关系 


辅助 索引 的 存在 并 不 影响 数据 在 聚集 索引 中 的 组 织 ， 因 此 每 张 表 上 可 以 有 多 个 辅助 索 
。 当 通过 辅助 索引 来 寻找 数据 时 ，InnoDB 存 储 引擎 会 遍历 辅助 索引 并 通过 叶 级 别 的 指针 
获得 指向 主键 索引 的 主键 ， 然 后 再 通过 主键 索引 来 找到 一 个 完整 的 行 记录 。 举 例 来 说 ， 如 
果 在 一 颗 高 度 为 3 的 辅助 索引 树 中 查找 数据 ， 那么 需要 对 这 颗 辅 助 索引 遍历 3 次 找到 指定 主 
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一 个 完整 的 行 数据 所 在 的 页 ， 因 此 一 共 需 要 6 次 逻辑 JO 来 访问 最 终 的 一 个 数据 页 。 

对 于 其 他 的 一 些 数据 库 ， 如 Microsoft SQL Server 数 据 库 ， 其 表 类 型 有 一 种 不 是 索引 组 
织 表 ， 称 为 堆 表 。 在 数据 的 存放 按 插入 顺序 方面 ， 与 MySQL 的 MyISAM 存 储 引 擎 有 些 类 
似 。 堆 表 的 特性 决定 了 堆 表 上 的 索引 都 是 非 聚集 的 ， 但 是 堆 表 没有 主键 。 因 此 这 时 书签 是 
一 个 行 标识 符 (row identifier, RID)， 可 以 用 如 “文件 号 : WS: 槽 号 ”的 格式 来 定位 实 
际 的 行 。 

也 许 有 人 会 问 ， 堆 表 的 非 聚集 索引 既然 不 需要 再 通过 主键 对 聚集 索引 进行 查找 ， 那 不 
是 速度 会 更 快 吗 ? 答案 是 也 许 ， 在 某 些 只 读 的 情况 下 ， 书 签 为 行 标识 符 方 式 的 非 聚 集 索 引 
可 能 会 比 书签 为 主键 方式 的 非 聚 集 索 引 快 。 但 是 考虑 在 OLTP (OnLine Transaction 
Processing， 在 线 事务 处 理 ) 应 用 的 情况 下 ， 表 可 能 还 需要 发 生 插 入 、 更 新 、 删 除 等 DML 
操作 。 当 进行 这 类 操作 时 ， 书 签 为 行 标识 符 方式 的 非 聚集 索引 可 能 需要 不 断 更 新 行 标识 符 
所 指向 数据 页 的 位 置 ， 这 时 的 开销 可 能 就 会 大 于 书签 为 主键 方式 的 非 聚 集 索 引 了 。 

有 的 Microsoft SQL Server 数 据 库 DBA 问 过 我 这 样 的 问题 ， 为 什么 在 SQL Server 上 还 要 
使 用 索引 组 织 表 ? 堆 表 的 书签 性 使 得 非 聚集 查找 可 以 比 主键 书签 方式 更 快 ， 并 且 非 聚集 可 
能 在 一 张 表 中 存在 多 个 ， 我 们 需要 对 多 个 非 聚集 索引 的 查找 。 而 且 对 于 非 聚集 索引 的 离散 
读 取 ， 索 引 组 织 表 上 的 非 聚 集 索引 会 比 堆 表 上 的 聚集 索引 慢 一 些 。 

当然 ， 在 一 些 情况 下 ， 使 用 堆 表 的 确 会 比索 引 组 织 表 更 快 ， 但 是 我 觉得 大 部 分 是 由 于 
存在 于 OLAP (On-Line Analytical Processing， 在 线 分 析 处 理 ) 的 应 用 。 其 次 就 是 前 面 提 
到 的 ， 表 中 数据 是 否 需要 更 新 ， 并 且 更 新 会 否 影响 到 物理 地 址 的 变更 。 此 外 另 一 个 不 能 忽 
视 的 是 对 于 排序 和 范围 查找 ,索引 组 织 表 可 以 通过 B+ 树 的 中 间 节 点 就 找到 要 查找 的 所 有 页 ， 
然后 进行 读 取 ， 而 堆 表 的 特性 决定 了 这 对 其 是 不 能 实现 的 。 最 后 ， 非 聚集 索引 的 离散 读 ， 
的 确 是 存在 上 述 情况 ， 但 是 一 般 的 数据 库 都 通过 实现 预 读 (read ahead) 技术 来 避免 多 次 
的 离散 读 操作 。 因 此 ， 具 体 是 建 堆 表 还 是 索引 组 织 表 ， 这 取决 于 你 的 应 用 ， 不 存在 哪个 更 
优 的 情况 。 这 和 InnoDB 存 储 引擎 好 还 是 MyISAM 存 储 引擎 好 的 问题 是 一 样 的 ， 具 体 情 况 具 
体 分 析 。 

接 下 来 ， 我 们 通过 阅读 表 空 间 文 件 来 分 析 InnoDB 存 储 引擎 的 非 聚 集 索 引 ， 我 们 还 是 分 
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析 上 一 小 节 所 用 的 表 t。 不 同 的 是 ， 在 表 !t 上 再 建立 一 个 列 c， 并 对 列 c 创 建 非 聚集 索引 : 


mysql» alter table t add c int not null; 
Query OK, 4 rows affected (0.24 sec) 


Records: 4 Duplicates: 0 Warnings: 0 


mysql> update t set c=0-a ; 
Query OK, 4 rows affected (0.04 sec) 
Rows matched: 4 Changed: 4 Warnings: 0 


mysql> alter table t add key idx_c (c); 
Query OK, 4 rows affected (0.28 sec) 


Records: 4 Duplicates: 0 Warnings: 0 


mysql> show index from t\G; 
kkk ke ce ee e e e KKK e e e KKK KK kx kx 1, COW kk kk kk kk kokck KKK kk 
Table: t 
Non unique: 0 
Key name: PRIMARY 
Seq in index: 1 
Column name: a 
Collation: A 
Cardinality: 2 
Sub part: NULL 
Packed: NULL 
Null: 
Index type: BTREE 
Comment: 
TTL 2. LOW kk kckckckckckck ckckckck kckckockokck kock k ko kk 
Table: t 
Non unique: 1 
Key name: idx c 
Seq in index: 1 
Column name: c 
Collation: A 
Cardinality: 2 
Sub part: NULL 
Packed: NULL 
Null: 
Index type: BTREE 
Comment: 


2 rows in set (0.00 sec) 


mysql» select a,c from t; 
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lale | 
十 一 一 一 十 一 一 一 一 十 
Ja 1-4 | 
13 1-3 | 
12 | -2 | 
11 |-1 | 
于 = 一 一 圭一 二 一 十 


4 rows in set (0.00 sec) 


JE FHpy innodb page info T ARORA, A: 


{root@nineyou0-43 mytest]# py innodb page info.py -v t.ibd 

page offset 00000000, page type «File Space Header» 

page offset 00000001, page type «Insert Buffer Bitmap» 

page offset 00000002, page type «File Segment inode» 

page offset 00000003, page type «B-tree Node», page level «0001» 
page offset 00000004, page type «B-tree Node», page level «0000» 
page offset 00000005, page type «B-tree Node», page level «0000» 
page offset 00000006, page type «B-tree Node», page level «0000» 
page offset 00000007, page type «B-tree Node», page level «0000» 
page offset 00000000, page type «Freshly Allocated Page» 

Total number of page: 9: 

Freshly Allocated Page: 1 

Insert Buffer Bitmap: 1 

File Space Header: 1 

B-tree Node: 5 


File Segment inode: 1 


对 比 前 一 次 我 们 的 分 析 ， 可 以 看 到 这 次 多 了 一 个 页 。 分 析 page offset 为 4 的 页 ， 该 页 为 
非 察 集 索 引 所 在 页 ， 通 过 工具 hexdump 分 析 可 得 : 





00010000 b9 aa 8e do 00 00 00 04 ff ff ff ff ff ff ff ff Perr ee ee a 
00010010 00 00 00 Oa ec ea 4e 27 45 bf 00 00 00 00 00 00 |..... aN BVsesess] 
00010020 00 00 00 00 01 02 00 02 00 ac 80 06 00 00 00 00 |............ si 
00010030 00 a4 00 01 00 03 00 04 00 00 00 00 00 52 d4 8b |..... tae ea a Res 
00010040 00 00 00 00 00 00 00 00 01 £2 00 00 01 02 00 00 ]................ 
00010050 00 02 02 72 00 00 01 02 00 00 00 02 01 b2 01 00 [...r............] 
00010060 02 00 41 69 6e 66 69 6d 75 6d 00 05 00 Ob 00 00 |..Ainfimum......| 
00010070 73 75 70 72 65 6d 75 6d 00 00 10 ff f3 7f ff ff |supremum..... "umm 
00010080 ff 80 00 00 01 00 00 18 ff £3 7f ff ff fe 80 00 ]................ 
00010090 00 02 00 00 20 ff f3 7f ff ff fd 80 00 00 03 00 |.... ........... 
000100a0 00 28 ff f3 7f ff ff fc 80 00 00 04 00 00 00 00 |.(............ os 


00000 
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00013££0 00 00 00 00 00 70 00 63 £3 46 77 £2 ec ea 4e 27 |.....p.c.Fw...N'| 


因为 只 有 4 行 数据 ， 并 且 列 c 只 有 4 个 字 节 ， 因 此 在 一 个 非 聚集 索引 页 中 即 可 完成 ， 整 理 
分 析 可 得 如 图 5-16 所 示 的 关系 : 


辅助 索引 idx_c 
Page Offset: 00 00 4 


Key: 7f ff ff ff Key: 7f ff ff fe Key: 7f ff ff fd Key: 7f ff ff fc 
Pointer: 80 00 00 01 Pointer: 80 0000 02  ||Pointer: 80 00 0003 || Pointer: 80 00 00 04 
aa aa Lì Tr 1411 —__6oet’1 EE | 


X: 4E #5 |Page Offset: 00 03 


Key: 80 00 00 01 Key: 80 00 00 02 Key: 80 00 00 04 
Pointer: 00 05 Pointer: 00 06 Pointer: 00 07 


Page Offset: 00 05 Page Offset: 00 06 Page Offset: 00 07 
1, repeat (‘a’, 7000), -1 d SA zi 4, repeat (*a', 7000), -4 


图 5-16 辅助 索引 分 析 





图 5-16 显 示 了 表 t 中 辅助 索引 idx_c 和 聚集 索引 的 关系 。 可 以 看 到 辅助 索引 的 叶 节 点 中 包 
含 了 列 c 的 值 和 主键 的 值 。 这 里 键 值 因为 我 特意 设 为 负 值 ， 你 会 发 现 -1 以 7f ff ff 任 的 方式 
进行 内 部 存储 。7 (0111) 最 高 位 为 0%， 代 表 负 值 ， 实 际 的 值 应 该 取 反 后 ， 加 1， 即 得 一 1。 


5.5.8 ”B+ 树 索 引 的 管理 


索引 的 创建 和 删除 可 以 通过 两 种 方法 ， 一 种 是 ALTER TABLE， 男 一 种 是 CREATE / 
DROP INDEX, ALTER TABLE 创 建 索 引 的 语法 为 : 


ALTER TABLE tbl name 
| ADD (INDEX|KEY) [index name] 


[index type] (index col name,...) [index option] ... 


ALTER TABLE tbl name 
DROP PRIMARY KEY 
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| DROP (INDEX|KEY) index name 


CREATE/DROP INDEX 的 语法 间 样 很 简单 ; 


CREATE [UNIQUE] INDEX index name 
[index type] 


ON tbl name (index col name,...) 


DROP INDEX index name ON tbl name 


索引 可 以 索引 整个 列 的 数据 ， 也 可 以 只 索引 一 个 列 的 开头 部 分 数据 ， 如 前 面 我们 创建 
的 表 t，b 列 为 varchar (8000)， 但 是 我 们 可 以 只 索引 前 100 个 字段 ， 如 : 


mysql> alter table t add key idx b (b(100)); 
Query OK, 4 rows affected (0.32 sec) 


Records: 4 Duplicates: 0 Warnings: 0 


目前 MySQL 数 据 库存 在 的 一 个 普遍 问题 是 ， 所 有 对 于 索引 的 添加 或 者 删除 操作 ， 
MySQL 数 据 库 是 先 创建 一 张 新 的 临时 表 ， 然 后 把 数据 导入 临时 表 ， 删 除 原 表 ， 再 把 临时 表 
重 名 为 原来 的 表 名 。 因 此 对 于 一 张大 表 ， 添 加 和 删除 索引 需要 很 长 的 时 间 。 对 于 从 Microsoft 
SQL Server 或 Oracle 数 据 库 的 DBA 来 说 ，MySQL 数 据 库 的 索引 维护 始终 让 他 们 非常 苦恼 。 

InnoDB 存 储 引 擎 从 版 本 InnoDB Plugin 开 始 ， 支 持 一 种 称 为 快速 索引 创建 方法 。 当 然 
这 种 方法 只 限定 于 辅助 索引 ， 对 于 主键 的 创建 和 删除 还 是 需要 重建 一 张 表 。 对 于 辅助 索引 
的 创建 ，InnoDB 存 储 引 警 会 对 表 加 上 一 个 S 锁 。 在 创建 的 过 程 中 ， 不 需要 重建 表 ， 因 此 速 
度 极 快 。 但 是 在 创建 的 过 程 中 ， 由 于 上 了 S 锁 ， 因 此 创建 的 过 程 中 该 表 只 能 进行 读 操作 。 
删除 辅助 索引 操作 就 更 简单 了 ， 只 需 在 InnoDB 存 储 引 擎 的 内 部 视图 更 新 下 ， 将 辅助 索引 的 
空间 标记 为 可 用 ， 并 删除 MySQL 内 部 视图 上 对 于 该 表 的 索引 定义 即 可 。 

查看 表 中 索引 的 信息 可 以 使 用 SHOW INDEX 语 句 。 如 我 们 来 分 析 表 t， 之 前 先 加 一 个 
联合 索引 ， 可 得 : 

mysql» alter table t add key idx a b (a,c); 


Query OK, 4 rows affected (0.31 sec) 


Records: 4 Duplicates: 0 Warnings: 0 


mysql> show index from t\G; 


kk kkk k kkk e eese ce ce ce ce eoe ce ce ee c EK dss LOW **XKXXXXXXxXXXXXXKkKxKXkKkKkXxXXX% 


Table: t 


Non unique: 0 
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Key name: 

Seq in index: 
Column name: 
Collation: 
Cardinality: 
Sub part: 
Packed: 

Null: 

Index type: 


Comment: 


PRIMARY 
1 


BTREE 


kkkkkkkkkkkkkkkkkkkkkkkk kkk 2. row kk k ck ok ok ook ck KKK RRR RR e kk 


Table: 

Non unique: 
Key name: 
Seq in index: 
Column name: 
‘Collation: 
Cardinality: 
Sub_part: 
Packed: 
Null: 
Index_type: 


Comment: 


kkkkkkkkkkkkkkkkkkkkkkkkk kk 3. row 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 文 


Table: 

Non unique: 
Key name: 
Seq in index: 
Column name: 
Collation: 
Cardinality: 
Sub part: 
Packed: 
Null: 

Index type: 


Comment: 


BTREE 


L[EZEEEXEZSEZEEEEZEEEZEEEERZERERZEEELI 4. row kkkkkkkkkkkkkkkkkkkk kkk k kkk 


Table: 
Non_unique: 
Key_name: 
Seq_in_index: 
Column_name: 


Collation: 
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Cardinality: 
Sub part: 
Packed: 

Null: 

Index type: 
Comment: 
kkkkkkkkkkkkkkk kk e ee e e e à kkk 5. 
Table: 

Non unique: 
Key name: 

Seq in index: 
Column name: 
Collation: 
Cardinality: 
Sub part: 
Packed: 

Null: 

Index type: 


Comment: 
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2 
NULL 
NULL 


BTREE 


LOW **kkkckck kc ck sk ke e e e e e e e e ke n kek n n k 


NULL 
NULL 


BTREE 


5 rows in set (0.00 sec) 


因为 在 表 t 上 有 3 个 索引 : 一 个 主键 索引 ,，c 列 上 的 索引 ， 和 b 列 前 100 个 字 节 构成 的 索引 。 
接着 我 们 来 具体 讲解 每 个 列 的 含义 ， 





Q Key. name; 


O Table: 索引 所 在 的 表 名 。 
Q Non unique; 非 唯一 的 索引 ， 可 以 看 到 primary key 是 0， 因 为 必须 是 唯一 的 。 


索引 的 名 称 ， 我 们 可 以 通过 这 个 名 称 来 DROP INDEX, 


DSeq_in_index: 索引 中 该 列 的 位 置 ， 如 果 看 联合 索引 idx_a_b 就 比较 直观 了 。 
口 Column name; 索引 的 列 
D Collation: 列 以 什么 方式 存储 在 索引 中 。 可 以 是 'A' 或 者 NULL。B+ 树 索引 总 是 A， 


即 排序 的 。 如 果 使 用 了 Heap 存 储 引擎 ， 并 且 建 立 了 Hash 索 引 ， 这 里 就 会 显示 NULL 
了 。 因 为 Hash 根 据 Hash 桶 来 存放 索引 数据 ， 而 不 是 对 数据 进行 排序 。 

Q Cardinality; 非常 关键 的 值 ， 表 示 索 引 中 唯一 值 的 数目 的 估计 值 。Cardinality/ 表 的 
行 数 应 尽 可 能 接近 1， 如 果 非 常 小 ， 那 么 需要 考虑 是 否 还 需要 建 这 个 索引 。 

O Sub_part: 是 否 是 列 的 部 分 被 索引 。 如 果 看 idx_b 这 个 索引 ， 这 里 显示 100， 表 示 我 
们 只 索引 b 列 的 前 100 个 字符 。 如 果 索 引 整 个 列 ， 则 该 字段 为 NULL。 
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O Packed; 关键 字 如 何 被 压缩 。 如 果 设 有 被 压缩 ， 则 为 NULL。 
Q Null; 是 否 索引 的 列 含有 NULL 值 。 可 以 看 到 idx_b 这 里 为 Yes。 因 为 我 们 定义 的 b 列 


允许 NULL 值 。 
口 Index_type: 索引 的 类 型 。InnoDB 存 储 引擎 只 支持 B+ 树 索引 ， 所 以 这 里 显示 的 都 是 
BTREE, 


Q Comment: 注释 。 

Cardinality 值 非常 关键 ， 优 化 器 会 根据 这 个 值 来 判断 是 否 使 用 这 个 索引 。 但 是 这 个 值 
并 不 是 实时 更 新 的 ， 并 非 每 次 索引 的 更 新 都 会 更 新 该 值 ， 因 为 这 样 代价 太 大 了 。 因 此 这 个 
值 是 不 太 准 确 的 ， 只 是 一 个 大 概 的 值 。 上 面 显示 的 结果 主键 的 Cardinality 为 2， 但 是 很 显然 
我 们 表 中 有 4 条 记录 ， 这 个 值 应 该 是 4。 如 果 需 要 更 新 索引 Cardinality 的 信息 ， 可 以 使 用 
ANALYZE TABLE 命 令 。 如 : 


mysql» analyze table t\G; 
KKKKKKKKKKKKKkKxkKrKxKxKkkkrkKkKxkkkkk 1. row LESEREEERSEERSEEEEEEEEEESEEEEI 
Table: mytest.t 
Op: analyze 
Msg type: status 
Msg text: OK 


1 row in set (0.01 sec) 


mysql> show index from t\G; 
eckck ck ck ook ck ck c kokok oko ko kokok ok kkkkkkkkk 1. row KAXXKKKKKKKrKKrKxKKrkxxxxxxxkXxkKtrkrkkaxak 
Table: t 
Non_unique: 0 
Key_name: PRIMARY 
Seq in index: 1 
Column name: a 
Collation: A 
Cardinality: 4 
Sub part: NULL 
Packed: NULL 
Null: 
Index type: BTREE 
Comment: 


这 时 的 Cardinality 的 值 就 对 了 。 不 过 ， 在 每 个 系统 上 可 能 得 到 的 结果 不 一 样 ， 因 为 
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ANALYZE TABLE 现 在 还 存在 一 些 问题 ， 可 能 会 影响 得 到 最 后 的 结果 。 另 一 个 问题 是 
MySQL 数 据 库 对 于 Cardinality 计 数 的 问题 ， 在 运行 一 段 时 间 后 ， 可 能 会 看 到 下 面 的 结果 : 


mysql> show index from Profile\G; 
e fe e e ee hehe e eoe eee oe eee eee e e he n d x ta row e he he e e ee e he eee eoe eoe ede e e e e e e e n x 
Table: Profile 
Non unique: 0 
Key name: UserName 
Seq in index: 1 
Column name: username 
Collation: A 
Cardinality: NULL 
Sub part: NULL 
Packed: NULL 
Null: 
Index type: BTREE 
Comment: 


Cardinality 为 NULL， 在 某 些 情 况 下 可 能 会 发 生 索 引 建 立 了 、 但 是 没有 用 到 ， 或 者 
explain 两 条 基本 一 样 的 语句 ， 但 是 最 终 出 来 的 结果 不 一 样 。 一 个 使 用 索引 ， 另 外 一 个 使 用 
全 表 扫 描 ， 这 时 最 好 的 解决 办 法 就 是 做 一 次 ANALYZE TABLE 的 操作 。 因 此 我 建议 在 一 个 
非 高 峰 时 间 ， 对 应 用 程序 下 的 几 张 核心 表 做 ANALYZE TABLE 操 作 ， 这 能 使 优化 器 和 索引 
更 好 地 为 你 工作 。 


5.6 B+ 树 索引 的 使 用 


5.6.1 什么 时 候 使 用 B+ 树 索引 


并 不 是 在 所 有 的 查询 条 件 下 出 现 的 列 都 需要 添加 索引 。 对 于 什么 时 候 添 加 B+ 树 索引 ， 
我 的 经 验 是 访问 表 中 很 少 一 部 行 时 ， 使 用 B+ 树 索引 才 有 意义 。 对 于 性 别 字 段 、 地 区 字段 、 
类 型 字段 ， 它 们 可 取 值 的 范围 很 小 ， 即 低 选择 性 。 如 : 

SELECT * FROM student WHERE sex-'M' 

对 于 性 别 ， 可 取 值 的 范围 只 有 'M'、'F'。 对 上 述 SQL 语 名 得 到 的 结果 可 能 是 该 表 50% 的 数据 
(我 们 假设 男女 比例 1:1) ， 这 时 添加 B+ 树 索引 是 完全 没有 必要 的 。 相 反 ， 如 果 某 个 字段 的 
取 值 范围 很 广 ， 几 乎 没有 重复 ， 即 高 选择 性 ， 则 此 时 使 用 B+ 树 索引 是 最 适合 的 ， 例 如 姓名 
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字段 ， 基 本 上 在 一 个 应 用 中 都 不 允许 重 名 的 出 现 。 

因此 ， 当 访问 高 选择 性 字段 并 从 表 中 取出 很 少 一 部 分 行 时 ， 对 这 个 字段 添加 B+ 树 索 引 
是 非常 有 必要 的 。 但 是 如 果 出 现 了 访问 字段 是 高 选择 性 的 ， 但 是 取出 的 行 数据 占 表 中 大 部 
分 的 数据 时 ， 这 时 MySQL 数 据 库 就 不 会 使 用 B+ 树 索引 了 ， 我 们 先 来 看 一 个 例子 : 


mysql» show index from member\G; 


ck cock ce ck ce coche ce ck ce ek cec e ok kk ok x TI 


Table: 

Non unique: 
Key name: 
Seq in index: 
Column name: 
Collation: 
Cardinality: 
Sub part: 
Packed: 
Null: 

Index type: 


Comment: 


occ ock ccc koc ck koc ck ko ck ko ckock ok ckck c kck ko kokok 24 


Table: 

Non unique: 
Key name: 
Seq in index: 
Column name: 
Collation: 
Cardinality: 
Sub part: 
Packed: 
Null: 
Index_type: 


Comment: 


kkkkkkkkkkkkěkkkěkkěkkěkkkkkkkkkk 3. 


Table: 
Non_unique: 
Key_name: 
Seq_in_index: 
Column_name: 
Collation: 
Cardinality: 
Sub_part: 
Packed: 


row LIEZEZEERESZZEEEZEEREEREEREREE 
member 

0 

PRIMARY 

1 

id 

A 

4833601 

NULL 

NULL 


BTREE 


row ockckckckck kckck kckck ckck kckck kockokok k kkkk* 
member 

0 

usernick 

1 

usernick 

A 

4833601 

NULL 

NULL 


BTREE 


LOW kkkkkkk kk Ak kk ko kckk kk kk k kkkkkk 
member 

1 

idx regdate 

1 

registdate 

A 

4833601 

NULL 

NULL 
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Null: 
Index type: BTREE 
Comment : 


4 rows in set (0.00 sec) 


表 member 大 约 有 500 万 行 数 据 。usernick 字 段 上 有 一 个 唯一 的 索引 。 这 时 如 果 我 们 查找 
'David' 这 个 用 户 时 ， 得 到 执行 计划 如 下 : 


mysql» explain select * from member where usernick-'David' AG; 


e eoe eee ke ke ce ke ck cce eee ke kk ook kk x 1. LOW XX kk kk kk kc kk ck ck ck ck k k kk kk kkkk* 


id: 

select type: 
table: 

type: 

possible keys: 
key: 

key len: 

ref: 

rows: 


Extra: 


1 

SIMPLE 
member 
const 
usernick 
usernick 
62 


const 


1 row in set (0.00 sec) 


可 以 看 到 使 用 了 usernick 这 个 索引 ， 这 也 符合 我 们 前 面 提 到 的 高 选择 性 、 选 取 表 中 很 少 
行 的 原则 。 但 是 如 果 执 行 下 面 这 条 语句 ， 


mysql» explain select * from member where usernick>'David'\G; 


kkk kkk kk k k k k ek ko x ox A x 1. LOW *** xk ck ck ke e e e v e A KEKEEK 


id: 

select type: 
table: 

type: 

possible keys: 
key: 

key len: 

ref: 

rows: 


Extra: 


1 

SIMPLE 
member 
ALL 
usernick 
NULL 
NULL 
NULL 
4833601 


Using where 


1 row in set (0.00 sec) 
可 以 看 到 possible_keys 依 然 是 usernick ， 但 是 实际 优化 器 使 用 的 索引 key 显 示 的 是 NULL。 
为 什么 ? 因为 这 不 符合 我 们 前 面 说 的 原则 ， 虽 然 usernick 这 个 字段 的 值 是 高 选择 性 的 ， 但 
是 我 们 取出 的 行 占 了 表 中 很 大 的 一 部 分 。 
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mysql> select @a:=count(id) from member where usernick>'David'; 


1 row in set (3.12 sec) 


mysql» select @b:=count(id) from member; 


1 row in set (2.20 sec) 


mysql» select @a/@b; 


和 + 
| @a/@b | 
FE + 
| 0.9414 | 
4 + 


1 row in set (0.00 sec) 


可 以 看 到 我 们 将 取出 表 中 94% 的 行 ， 因 此 优化 器 没有 使 用 索引 。 也 许 有 人 看 到 这 里 会 
间 ， 谁 会 执行 这 句 话 啊 ? 查找 姓名 大 于 David 的 字段 ， 这 种 情况 几乎 不 存在 。 的 确 如 此 ， 
但 是 我 们 来 考虑 member 表 上 的 registdate 字 段 (代表 用 户 的 注册 时 间 ) ， 该 字段 是 日 期 类 型 ， 
字段 上 有 一 个 regdate 的 非 唯一 索引 。 我 们 来 看 下 面 两 条 语句 的 执行 计划 : 


mysql> explain select * from member where registdate<'2006-04-23'\G; 
LEXZEXZEZEZEEXKZEZERZRERERREREREREEREI I. row IZZEZEZXZERERERERERERZEREZZEZERRSEEZZI 
id: 1 
select type: SIMPLE 
table: member 
type: range 
possible keys: idx regdate 
key: idx regdate 
key len: 8 
ref: NULL 
rows: 788696 
Extra: Using where 


1 row in set (0.00 sec) 
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mysql» explain select * from member where registdate<'2006-04-24'\G; 


X*Xckckck ck kck Ck kck Ck k ck ck k KEK kok kk kkkkk ll. row *FKKFKKKXKKKKXKKKKKKKKKKKKKKKK 
id: 1 
select type: SIMPLE 
table: member 
type: ALL 
possible keys: idx regdate 
key: NULL 
key len: NULL 
ref: NULL 
rows: 4833601 
Extra: Using where 


1 row in set (0.00 sec) 


查找 用 户 注册 时 间 小 于 某 个 时 间 的 SQL 语句 。 出 人 意料 的 是 ， 只 是 相差 了 1 天 ，2 条 
SQL 语句 的 执行 计划 竟然 不 同 。 在 执行 第 二 条 SQL 语句 的 时 候 ， 虽 然 同 样 可 以 使 用 
idx_regdate 索 引 ， 但 是 优化 器 却 没 有 使 用 该 索引 ， 而 是 对 其 全 表 进 行 扫 描 。MySQL 数 据 库 
的 优化 器 会 通过 EXPLAIN 的 rows 字 段 预 估 查 询 可 能 得 到 的 行 ， 如 果 大 于 某 一 个 值 ， 则 B+ 
树 会 选择 全 表 的 扫 表 。 至 于 这 个 值 ， 根 据 我 的 经 验 (并 没有 在 源 代码 中 得 到 验证 ) 一 般 在 
20%。 即 当 取 出 的 数据 量 超过 表 中 数据 的 20% ， 优 化 器 就 不 会 使 用 索引 ， 而 是 进行 全 表 的 
AR. 

但 是 ， 预 估 的 返回 行 数 的 值 是 不 准确 的 ， 可 以 看 到 优化 器 判断 注册 日 期 小 于 2006-04-23 
的 行为 788 696， 但 实际 得 到 的 却 是 : 


mysql» select count(id) from member where registdate<'2006-04-23'; 


十 一 一 一 一 一 一 一 一 一 一 一 一 + 
| count(id) | 
ee + 
| 523046 | 

t------------ + 


1 row in set (0.34 sec) 


实际 却 只 有 523 046 行 ， 少 了 33%。 这 可 能 对 于 优化 器 的 选择 产生 一 定 的 后 果 ， 如 果 我 
们 对 比 强制 使 用 索引 和 使 用 优化 器 选择 的 全 表 扫 描 来 查询 注册 日 期 小 于 2006-04-24 的 数据 ， 
AE ARS 


mysql» select id,userid,sex,registdate into outfile 'a' from member force 


index(idx regdate) where registdate«'2006-04-24'; 
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Query OK, 551664 rows affected (4.15 sec) 


mysql> select id,userid,sex,registdate into outfile 'b' from member where 
registdate<'2006-04-24'; 
Query OK, 551664 rows affected (18.70 sec) 


第 一 句 SQL 语 名 我们 强制 使 用 idx_regdate 索 引 ， 所 用 的 时 间 为 4.15 秒 ， 根 据 优 化 器 选 
择 的 全 表 扫 方式 ， 执 行 第 二 句 SQL 语 句 却 需 要 18.7 秒 。 因 此 优化 器 的 选择 并 不 完全 是 正确 
的 ， 有 时 你 更 应 该 相信 自己 的 判断 。 


5.6.2 顺序 读 、 随 机 读 与 预 读 取 


任何 时 候 Why 都 比 What 重 要 ， 我 已 经 告诉 了 你 索引 使 用 的 原则 ， 即 高 选择 、 取 出 表 中 
少 部 分 的 数据 。 但 是 为 什么 只 能 是 少 部 分 数据 ? 在 知道 为 什么 之 前 ， 我 想 让 你 了 解 两 个 概 
念 一 一 顺序 读 和 随机 读 。 

顺序 读 (Sequntial Read) 是 指 顺序 地 读 取 磁盘 上 的 块 (Block) ; 随机 读 (Random 
Read) 是 指 访问 的 块 不 是 连续 的 ， 需 要 磁盘 的 磁头 不 断 移动 。 当 前 传统 机 械 磁盘 的 瓶颈 之 
一 就 是 随机 读 取 的 速度 较 低 。 图 5-17 是 用 sysbench 测 试 的 顺序 读 和 随机 读 的 速度 对 比 ， 同 
时 对 比 RAID 开 启 Write Back 和 Write Through 的 性 能 差异 。 测 试 的 磁盘 是 由 4 块 15 000 转 的 
硬盘 组 成 的 RAID 10。 测 试 文件 大 小 为 2GB， 块 大 小 64KB。 


sysbench fileio 


193.76 65.333 





图 5-17 顺序 读 与 随机 读 的 对 比 
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可 以 看 到 ， 不 管 是 否 开启 RAID 卡 的 Write Back 功 能 ， 磁 盘 的 随机 读 性 能 都 远 远 小 于 顺 
序 读 的 性 能 。 通 过 图 5-17 的 比较 ， 我 们 也 大 致 可 以 知道 Write Back 相 对 于 Write Through 的 
性 能 提升 。 

在 数据 库 中 ， 顺 序 读 是 指 根据 索引 的 叶 节 点 数据 就 能 顺序 地 读 取 所 需 的 行 数据 。 这 个 
顺序 只 是 逻辑 地 顺序 读 ， 在 物理 磁盘 上 可 能 还 是 随机 读 取 。 但 是 相对 来 说 ， 物 理 磁 盘 上 的 
数据 还 是 比较 顺序 的 ， 因 为 是 根据 区 来 管理 的 ， 区 是 64 个 连续 页 。 如 根据 主键 进行 读 取 ， 
或 许 通过 辅助 索引 的 叶 节 点 就 能 读 取 到 数据 。 

随机 读 ， 一 般 是 指 访问 辅助 索引 叶 节 点 不 能 完全 得 到 结果 的 ， 需 要 根据 辅助 索引 叶 节 
点 中 的 主键 去 找 实际 行 数据 。 因 为 一 般 来 说 ， 辅 助 索 引 和 主键 所 在 的 数据 段 不 同 ， 因 此 访 
问 是 随机 的 方式 。 前 一 小 节 中 的 SQL 语 名 select id userid sex registdate into outfile 'a' from 
member force index (idx_regdate) where registdate<'2006-04-24'; 就 是 一 句 典 型 的 随机 读 取 。 
而 正 是 因为 读 取 的 方式 是 随机 的 ， 并 且 随 机 读 的 性 能 会 远 低 于 顺序 读 ， 因 此 优化 器 才 会 选 
择 全 表 的 扫描 方式 ， 而 不 是 去 走 idx_regdate 这 个 辅助 索引 。 

为 了 提高 读 取 的 性 能 ，InnoDB 存 储 引擎 引入 了 预 读 取 技 术 (read ahead 或 者 prefetch ) 。 
预 读 取 是 指 通过 一 次 IO 请 求 将 多 个 页 预 读 取 到 缓冲 池 中 ， 并 且 估 计 预 读 取 的 多 个 页 马上 会 
被 访问 。 传 统 的 IO 请 求 每 次 只 读 取 1 个 页 ， 在 传统 机 械 硬盘 较 低 的 IOPS 下 ， 预 读 技术 可 以 
大 大 提高 读 取 的 性 能 。 

InnoDB 存 储 引 擎 有 两 个 预 读 方法 ， 称 为 随机 预 读 取 (random read ahead) 和 线性 
(linear read ahead) 预 读 取 。 随 机 预 读 是 指 当 一 个 区 (64 个 连续 页 ) 中 13 个 页 也 在 缓冲 区 
中 ， 并 在 LRU 列 表 的 前 端 〈 即 页 是 频繁 地 被 访问 ) ， 则 InnoDB 存 储 引擎 会 将 这 个 区 中 剩余 
的 所 有 页 预 读 到 缓冲 区 。 线 性 预 读 基于 缓冲 字 中 页 的 访问 模式 ， 而 不 是 数量 。 如 果 一 个 区 
中 的 24 个 页 都 被 顺序 地 访问 了 ， 则 InnoDB 存 储 引 擎 会 读 取 下 一 个 区 的 所 有 页 。 

但 是 ，InnoDB 存 储 引擎 的 预 读 取 技 术 在 实际 测试 下 却 非 常 糟糕 ， 我 曾 写 过 一 个 patch 
来 禁用 预 读 取 功能 ， 这 个 patch 很 简单 ; 


--- mysql/mysql1-5.1.35/storage/innobase/srv/srv0srv.c 2009-08-03 
16:05:53.000000000 +0800 | 

+++ mysql-5.1.35/storage/innobase/srv/srv0srv.c 2009-05-14 19:35:20.000000000 +0800 
88 -49,9 +49,6 88 

#include "row0mysql.h" 
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5 
E 


a 
CA 
+ 


#include "ha prototypes.h" 


-/* Set innodb read ahead level */ 

-ulong srv innodb read ahead level = 3; /* 0: disable 1: random 2: sequential 3: Both */ 
/* This is set to TRUE if the MySQL user has set it in MySQL; currently 

affects only FOREIGN KEY definition parsing */ 


ibool srv lower case table names = FALSE; 


--- mysql/mysql-5.1.35/storage/innobase/buf/buf0rea.c 2009-08-03 
16:05:53.000000000 +0800 

+++ mysql-5.1.35/storage/innobase/buf/buf0rea.c 2009-05-14 19:35:12.000000000 +0800 
@@ -23,7 +23,6 @@ 

extern ulint srv_read_ahead_rnd; 

extern ulint srv_read_ahead_seq; 

extern ulint srv_buf_pool_reads; 


-extern ulong srv_innodb_read_ahead_level; 


/* The size in blocks of the area where the random read-ahead algorithm counts 
the accessed pages when deciding whether to read-ahead */ 
@@ -177,9 +176,6 @@ 

ulint err; 


ulint i; 


- if (srv innodb read ahead level !- 3 && srv innodb read ahead level != 1 ) 


- return(0); 


if (srv startup is before trx rollback phase) { 
/* No read-ahead to avoid thread deadlocks */ 
return(0); 
88 -390,9 +386,6 @@ 
ulint err; 


ulint i; 


- if (srv innodb read ahead level != 3 && srv innodb read ahead level != 2 ) 


- return(0); 


if (srv startup is before trx rollback phase) ( 
/* No read-ahead to avoid thread deadlocks */ 


return(0); 


对 比 数据 库 TPC-C 测 试 性 能 ， 发 现 TPC-C 的 结果 禁用 预 读 取 的 性 能 比 启 用 预 读 取 的 性 


提高 了 10%。InnoDB 存 储 引 敬 官 方 也 发 现 了 这 个 问题 ， 从 InnoDB Plugin 1.0.4 开 始 ， 随 
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机 访问 的 预 读 取 被 取消 了 ， 而 线性 的 预 读 取 还 是 保留 了 ， 并 且 加 入 了 innodb_read_ahead_ 
threshold 参 数 。 该 参数 表示 一 个 区 中 的 多 少 页 被 顺序 访问 时 ，InnoDB 存 储 引擎 才 启 用 预 读 
取 ， 即 预 读 下 一 个 区 的 所 有 页 。 参 数 innodb_read_ahead_threshold 的 默认 值 为 56， 即 当 一 
个 区 中 56 个 页 都 已 被 访问 过 并 且 访 问 模式 是 顺序 的 ， 则 预 读 取 下 一 个 区 的 所 有 页 。 


mysql> show variables like 'innodb read ahead threshold'; 
P CC EL +------- + 

| Variable_name | Value | 
+--_-------------------------------- +------- + 

| innodb_read ahead threshold | 56 | 
+---------------1------------------- +-------- + 


1 row in set (0.00 sec) 


我 关注 的 另 一 个 问题 是 固态 硬盘 ， 固 态 硬盘 的 接口 规范 、 定 义 、 功 能 和 使 用 等 方面 与 
.传统 机 械 硬盘 相同 ， 但 是 它们 的 内 部 构造 完全 不 同 ， 固 态 硬盘 没有 读 写 磁头 ， 读 取 数 据 不 
需要 围绕 中 心 轴 旋 转 ， 因 此 ， 它 的 随机 读 性 能 得 到 了 质 的 飞跃 。 在 使 用 固态 硬盘 的 情况 下 ， 
优化 器 的 20% 选 择 原理 可 能 就 不 怎么 准确 了 ， 我 们 应 该 更 充分 地 利用 固态 硬盘 的 特性 。 当 
然 ， 这 不 只 是 InnoDB 存 储 引 擎 遇 到 的 问题 ， 对 于 其 他 数据 库 ， 目 前 都 存在 没有 充分 利用 固 
态 硬盘 特性 的 情况 。 相 信和 随 着 固态 硬盘 的 普及 ， 各 数据 库 厂商 会 加 快 这 一 方面 的 优化 。 


5.6.3 辅助 索引 的 优化 使 用 


前 面 已 经 提 到 了 ， 辅 助 索引 的 叶 节 点 包含 有 主键 ,但 是 辅助 索引 的 叶 并 不 包含 完整 的 
行 信息 。 因此, InnoDB 存 储 引擎 总 是 会 先 从 辅助 索引 的 叶 节 点 判断 是 否 能 得 到 所 需 的 数据 。 
让 我 们 来 看 一 个 例子 : 


mysql» create table t (a int not null, b varchar(20), primary key (a),key(b)); 
Query OK, 0 rows affected (0.19 sec) 


mysql> insert into t select l,'kangaroo'; 
Query OK, 1 row affected (0.02 sec) 


Records: 1 Duplicates: 0 Warnings: 0 
mysql> insert into t select 2,'dolphin'; 


Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 
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mysql» insert into t select 3,'dragon'; 
Query OK, 1 row affected (0.03 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 4,'antelope'; 
Query OK, 1 row affected (0.02 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


如 果 执 行 SELECT * FROM t， 估 计 很 多 人 以 为 会 得 到 如 下 的 结果 : 


mysql> select * from t order by a\G; 
LESEREEERERERERSEREREERRSRERERRSRERI ls YOW "kk ck ck ke e eee LE ke ke ke ke ke ke e e KKK 
a: 1 

b: kangaroo 

KKKXKKXKKKKKKKKKKKKKKK e kk kk ox 2x COW "kk k kk ckckckckoe ce ek kk kk kk e à à x 
a: 2 

b: dolphin 

LIEZEERZEREEZEZEREEZEREEEEREEEEEEJ 3. row ke fe she ke he oe ode che ke e ee e ee ee oe e de oe e n n x x 
a: 3 

b: dragon 

oe eee oe e ke eee eee eee e ek kx x xà x 4. LOW "kk koc eoo e eee e ee e e e e x 
a: 4 

b: antelope 

4 rows in set (0.01 sec) 


但 是 实际 执行 的 结果 却 是 : 


mysql> select * from t\G; 

LDEZZEZXZEZZERREEEREERREREREREEREI 1. LOW ** kk kckckckck ckckck ckokecko de dece KKK e e e € 
as 4 

b: antelope 

LEZZXEZZEZZIEXEXZIZEXZREZEREREKERLEIE SEM Y OW **okckckck ck eoe ke ee ke ee ke e e e e KKK 
a: 2 

b: dolphin 

ck ke ee hehehe ee ce ce ee eee e ck x € x 3. row LEXREXAZREREREEEZEZEREEREREEIEI 
a: 3 

b: dragon 

L[ZEZZEEZEXZEREEREERRERREREREREERI 4. COW kk kk ckck ck ck kc kc ke ke ke e kc e e e ke ek kk x 
a: 1 

b: kangaroo 


4 rows in set (0.00 sec) 


这 就 是 我 们 前 面 所 提 到 的 ， 因 为 辅助 索引 中 包含 了 主键 8 的 值 ， 因 此 访问 b 列 上 的 辅助 
索引 就 能 得 到 a 值 ， 那 这 样 就 可 以 得 到 表 中 所 有 的 数据 。 并 且 通 常情 况 下 ， 一 个 辅助 索引 
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页 中 能 存放 的 数据 比 主键 页 上 存放 的 数据 多 ， 因 此 优化 器 选择 了 辅助 索引 ， 如 果 我 们 解释 
这 名 SQL 语句 ， 可 得 到 如 下 结果 : 


mysql» explain select * from t\G; 
de e e de e oe ee hee eoe oe ede oe eee e eee à n Li lu row c e e e he e ehe he oe ehe eee cede eode ehe ce cede ce x 
ld: 1 
select type: SIMPLE 
table: t 
type: index 


possible keys: NULL 


key: 
key len: 


ref: 


b 
63 
NULL 


rows: 4 
Extra: Using index 


1 row in set (0.00 sec) 


可 以 看 到 ， 优 化 器 最 终 选 择 的 索引 是 b,. 如 果 想 得 到 对 列 a 排 序 的 结果 ， 你 还 需 对 其 进 
行 ORDER BY 操作 ， 这 样 优化 器 会 直接 走 主键 ， 避 免 对 a 列 的 排序 操作 。 如 ， 


mysql» explain select * from t order by a\G; 


fc e e e e e ee e ee e hec ee e e e e e v x xx 1, row oe eoe e ke e e e e e e e e e e e e e e e n x 


id: 

select type: 
table: 

type: 

possible keys: 
key: 

key len: 


ref: 


1 
SIMPLE 
t 

index 
NULL 
PRIMARY 
4 

NULL 


rows: 4 
Extra: 
1 row in set (0.00 sec) 


mysql> select * from t order by a\G; 

e e e e de e ee ee ehe ode ehe e ee eee ee v dX E x l4 row e e e e ke e eoe ee eee eoe eoe de eoe oe ee d Li 
a: 1 

b: kangaroo 


KKK e de e e he ehe e ee e e e e e e e 2, COW KERR ke e e e e ke e e e e e e oe e ke e e e e e e e x 
a: 2 

b: dolphin 

e e e e e eee eee ee hee ee e e e de e e x e x 3. row e eee eee ee hee ee e hee ehe e e eee e e n x 


a: 3 
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b: dragon 


kkkkkkkkkkkkkkkkkkkkkkkkkkk 4. LOW kkkkkkkkkkkkkkkkkkkkkkkkkkk 
a: 4 
b: antelope 


4 rows in set (0.01 sec) 


或 者 强制 使 用 主键 来 得 到 结果 : 


mysql> select * from t force index(PRIMARY)\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkkk ls row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
a: 1 

b: kangaroo 


kkkt oec eo e e o ck kk kkk k ko ko koX 2. COW ****kkkkkkktkkkkkkkkkkkkkkkk 
a: 2 

b: dolphin 

kkkkkkkkkkkkkěkkkkkkkkkkkk kkk 3. LOW **kkkkkkkkkkkk&kÀxkkkÀ*k4kkk*kkkÀxkk 
a: 3 

b: dragon 


KEKTLTXLTTTLXXKKXAKLKXKKXTKXxKXKXXxXxKrkkx 4. LOW FKKXXXXXXXXXXXXXX1XXXXXXXxXk% 
a: 4 
b: antelope 


4 rows in set (0.00 sec) 


5.6.4 联合 索引 


联合 索引 是 指 对 表 上 的 多 个 列 做 索引 。 前 面 我 们 讨论 的 情况 ， 都 是 只 对 表 上 的 一 个 列 
进行 了 索引 。 联 合 索引 的 创建 方法 与 之 前 介绍 的 一 样 ， 如 ， 


mysql» alter table t add key idx a b(a,b); 
Query OK, 4 rows affected (0.25 sec) 


Records: 4 Duplicates: 0 Warnings: 0 


什么 时 候 需 要 使 用 联合 索引 呢 ? 在 讨论 这 个 之 前 ， 我 们 要 来 看 一 下 联合 索引 内 部 的 结 
果 。 从 本 质 上 来 说 ， 联 合 索 引 还 是 一 颗 B+ 树 ， 不 同 的 是 联合 索引 的 键 值 的 数量 不 是 1， 而 
是 大 于 等 于 2。 我 们 来 讨论 两 个 整 型 列 组 成 的 联合 索引 ， 假 定 两 个 键 值 的 名 称 分 别 为 a、b， 
如 图 5-18 所 示 。 

从 图 5-18 可 以 看 到 多 个 键 值 的 B+ 树 情况 ， 其 实 和 我 们 之 前 讨论 的 单个 键 值 没有 什么 不 
同 ， 键 值 都 是 排序 的 ， 通 过 叶 节 点 可 以 逻辑 上 顺序 地 读 出 所 有 数据 ， 就 上 面 的 例子 来 说 即 
(1,1)，(1,2)，(2,1)，(2,4)，(3, 1)，(3,2)。 数 据 按 (a,b) 的 顺序 进行 了 存放 。 
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图 5-18 多 个 键 值 的 B+ 树 


因此 ， 对 于 查询 SELECT * FROM TABLE WHERE a=xxx and b=xxx， 显 然 是 可 以 使 用 
(a,b) 的 这 个 联合 索引 。 对 于 单个 的 a 列 查询 SELECT * FROM TABLE WHERE a=xxx 也 是 
可 以 使 用 这 个 (ab) 索引 。 但 是 对 于 b 列 的 查询 SELECT * FROM TABLE WHERE b=xxx, 
不 可 以 使 用 这 颗 B+ 树 索引 。 可 以 看 到 叶 节 点 上 的 b 值 为 1|、2、1、4、1、2， 显 然 不 是 排序 
的 ， 因 此 对 于 b 列 的 查询 使 用 不 到 (ab) 的 索引 。 

联合 索引 的 第 二 个 好 处 是 ， 可 以 对 第 二 个 键 值 进行 排序 。 例 如 ， 在 很 多 情况 下 我 们 都 
需要 查询 某 个 用 户 的 购物 情况 ， 并 按照 时 间 排 序 ， 取 出 最 近 三 次 的 购买 记录 ， 这 时 使 用 联 
合 索引 可 以 避免 多 一 次 的 排序 操作 ， 因 为 索引 本 身 在 叶 节 点 已 经 排序 了 。 


create table buy log ( userid int unsigned not null, buy date date ); 


mysql> insert into buy log values ( 1,'2009-01-01'); 
Query OK, 1 row affected (0.02 sec) 


mysql> insert into buy log values ( 2,'2009-01-01'); 


~ 


Query OK, 1 row affected (0.05 sec) 


mysql> insert into buy_log values ( 3 
Query OK, 1 row affected (0.03 sec) 


'2009-01-01'); 


^ 


mysgl» insert into buy log values ( 1,'2009-02-01'); 


DI 


Query OK, 1 row affected (0.01 sec) 


E 


mysgl» insert into buy log values ( 3,'2009-02-01'); 
Query OK, 1 row affected (0.01 sec) 


mysql» insert into buy log values ( 1,'2009-03-01'); 
Query OK, 1 row affected (0.01 sec) 


mysql> insert into buy log values ( 1,'2009-04-01'); 
Query OK, 1 row affected (0.01 sec) 
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mysql» alter table buy log add key ( userid ); 
Query OK, 7 rows affected (0.43 sec) 


Records: 7 Duplicates: 0 Warnings: 0 


mysql> alter table :buy log add key ( userid,buy date ); 
Query OK, 7 rows affected (0.50 sec) 


Records: 7 Duplicates: 0 Warnings: 0 


我 们 建立 了 两 个 索引 来 进行 比较 。 两 个 索引 都 包含 了 userid 字 段 。 如 果 只 对 于 userid 进 
行 查询 ， 优 化 器 的 选择 是 : 
mysql» explain select * from buy log where userid=2\G; 
che cec ce ce cce e e e ce ke e ke e e ke ck e kk kk kk OL, COW XKXXXXXXXXXXXXXXXXXX%X%XX%X%X%*% 
id: 1 
select_type: SIMPLE 
table: buy_log 
type: ref 
possible keys: userid,userid 2 
key: userid 
key_len: 4 
ref: const 
rows: 1 
Extra: 


1 row in set (0.00 sec) 


可 以 看 到 possible_keys 这 里 有 两 个 索引 可 以 使 用 ， 分 别 是 单个 的 userid 索 引 和 userid、 
buy_date 的 联合 索引 。 但 是 优化 器 最 终 的 选择 是 userid， 因 为 该 叶 节 点 包含 单个 键 值 ， 因 此 
一 个 页 能 存放 的 记录 应 该 更 多 。 接 着 看 以 下 的 查询 ， 我 们 假定 要 取出 userid=1 的 最 近 3 次 购 
买 记录 ， 并 分 析 使 用 单个 索引 和 联合 索引 的 区 别 : 


mysql> explain select * from buy log where userid=1 order by buy date desc limit 3\G; 
echec ce ce ce oe che ce ce coe e e ce ce e e ck e e e ck EKER ], TOW ck cce ce ce ce e kkk ce e kkk e cc ke kk kkk kk 
id: 1 
select type: SIMPLE 
table: buy log 
type: ref 
possible keys: userid,userid 2 
key: userid 2 
key len: 4 
ref: const 
rows: 3 


Extra: Using where; Using index 
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1 row in set (0.00 sec) 


同样 ， 对 于 上 述 的 SQL 语句 都 可 以 使 用 userid 和 userid,buy_date 的 索引 。 但 是 这 次 优化 


器 使 用 了 userid、buy_date 的 联合 索引 userid_2， 因 为 在 这 个 联合 索引 中 buy_date 已 经 排序 
好 了 。 如 有 果 我 们 强制 使 用 userid 的 单个 索引 ， 会 得 到 如 下 结果 : 


mysql» explain select * from buy log force index(userid) where userid-1 order by 
buy date desc limit 3\G; 
fe e ce ce ee dede dede ce ce ce ce cec cce cce kk ck ox 1l. row ck dece ce ce ce ce ce eee dece ce ccce ce eee o x 
id: 1 
select type: SIMPLE 
table: buy log 
type: ref 
possible keys: userid 
key: userid 
key len: 4 
ref: const 
rows: 3 
Extra: Using where; Using filesort 


1 row in set (0.00 sec) 


在 Extra 这 里 ， 我 们 可 以 看 到 Using filesort，filesort 是 指 排序 ， 但 是 并 不 是 在 文件 中 完 
我 们 可 以 对 比 执行 : 


mysql» show status like 'sort rows'; 
+--------~-~------ +------- + 


| Variable, name | Value | 


+--~--------------- tocco + 
| Sort_rows | 7 | 
4-2-2--2-2--2--2-------- 4------- + 


1 row in set (0.00 sec) 


mysql> select * from buy log force index(userid) where userid-1 order by 
buy date desc limit 3; i 

+-------- T--------------- + 

| userid | buy date | 

+-------- +--------------- + 

| 1 | 2009-04-01 | 

| 1 | 2009-03-01 | 

| 1 | 2009-02-01 | 

+ +--------------- + 


3 rows in set (0.00 sec) 
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mysql» show status like 'sort rows'; 
T----------------- +------- + 


| Variable name | Value | 


+----------------- 4------- * 
| Sort rows | 10 | 
tano 4 + 


1 row in set (0.00 sec) 


可 以 看 到 增加 了 排序 的 操作 ， 但 是 如 果 使 用 userid、buy_date 的 联合 索引 userid_2， 就 不 会 
有 这 一 次 的 额外 操作 了 ， 如 : 


mysql» show status like 'sort rows'; 
4--------2--2------- 4------- * 


| Variable name | Value | 


$----------------- T------- * 
| Sort rows | 10 | 
4----2------------- tuoi 十 


1 row in set (0.00 sec) 


mysql» select * from buy log where userid-1 order by buy date desc limit 3; 
+-------- T--------------- * 

| userid | buy date | 

+-------- +--------------- + 

| 1 | 2009-04-01 | 

| 1 | 2009-03-01 | 

| 1 | 2009-02-01 | 

+-------- +-------_-_-_---- + 


3 rows in set (0.00 sec) 


mysql» show status like 'sort rows'; 
4----------------- 4------- * 


| Variable name | Value | 


4---------------- 4------- + 
| Sort_rows | 10 | 
Fo 中 + 


1 row in set (0.00 sec) 


5.7 RRRA 


InnoDB 存 储 引 擎 中 自 适 应 哈 希 索 引 使 用 的 是 散 列表 (Hash Table) 的 数据 结构 。 但 是 
散 列 表 不 只 存在 于 自 适应 哈 希 中 ， 在 每 个 数据 库 中 都 存在 。 设 想 一 个 问题 ， 当 前 我 的 内 存 
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为 128G， 我 怎么 得 到 内 存 中 的 某 一 个 被 缓存 的 页 呢 ? 内 存 中 查询 速度 很 快 ， 但 是 也 不 可 能 
遍历 所 有 内 存 。 这 时 ， 对 于 字典 操作 ,，O (1) 的 散 列 技术 就 能 有 很 好 的 用 武之 地 。 


5.7.1 WR 


哈 希 表 (Hash Table) 也 称 散 列 表 ， 由 直接 寻 址 表 改 进而 来 ， 所 以 我 们 先 来 看 直接 寻 
址 表 。 当 关键 字 的 全 域 U 比 较 小 时 ， 直 接 寻 址 是 一 种 简单 而 有 效 的 技术 。 假 设 某 应 用 要 用 
到 一 个 动态 集合 ， 其 中 每 个 元 素 都 有 一 个 取 自 全 域 U={0, 1, …, m 一 1}9 的 关键 字 ， 同 时 假 
设 没有 两 个 元 素 具 有 相同 的 关键 字 。 

用 一 个 数组 〈 即 直接 寻 址 表 ) T[0..m 一 1] 表 示 动 态 集 合 ， 其 中 每 个 位 置 《或 称 槽 或 桶 ) 
对 应 全 域 U 中 的 一 个 关键 字 。 图 5-19 说 明 这 个 方法 ， 槽 k 指 向 集合 中 一 个 关键 字 为 k 的 元 素 。 
如 采 该 集合 中 没有 关键 字 为 k 的 元 素 ， 则 T[kj=NULL。 


U 
(关键 字 全 域 ) 





图 5-19 直接 寻 址 表 


直接 寻 址 技术 存在 一 个 很 明显 的 问题 : 如 果 域 U 很 大 ， 在 典型 计算 机 的 可 用 容量 限制 
下 ， 要 在 机 器 中 存储 大 小 为 U 的 表 T 就 有 点 不 实际 ， 甚 至 是 不 可 能 的 。 如 果实 际 要 存储 的 
关键 字 集 合 K 相 对 于 U 来 说 很 小 ， 因 而 分 配给 IT 的 大 部 分 空间 都 要 浪费 掉 。 

因此 ， 哈 希 表 出 现 了 ， 在 哈 希 方式 下 ， 该 元 素 处 于 h (k) 中 ， 亦 即 利用 哈 希 函数 hn、 
根据 关键 字 k 计 算出 槽 的 位 置 。 函 数 h 将 关键 字 域 U 映 射 到 哈 希 表 T[0..m-1] 的 槽 位 上 ， 见 图 
5-20 所 示 。 


O 此 处 的 m 不 是 一 个 很 大 的 数 。 
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图 5-20 哈 希 表 


哈 希 表 技术 很 好 地 解决 了 直接 寻 址 遇 到 的 问题 ， 但 是 这 样 做 有 一 个 小 问题 ， 如 图 5-20 
所 示 的 两 个 关键 字 可 能 了 映射 到 同一 个 槽 上 .。 一 般 将 这 种 情况 称 之 为 发 生 了 了 磁 撞 (collision), 
数据 库 中 一 般 采 用 最 简单 的 磁 撞 解决 技术 ， 称 之 为 链接 法 (chaining). 

在 链接 法 中 ， 把 散 列 到 同一 槽 中 的 所 有 元 素 都 放 在 一 个 链表 中 ， 如 图 5-21 所 示 。 槽 j 中 
有 一 个 指针 ， 他 指向 由 所 有 散 列 到 j 的 元 素 构成 的 链表 的 头 ， 如 果 不 存在 这 样 的 元 素 ， 则 j 
中 为 NULL。 


U (关键 字 域 ) 





图 5-21 通过 链表 法 解决 碰撞 的 哈 希 表 


最 后 要 考虑 的 是 哈 希 函数 了 ， 哈 希 函 数 h 必 须 很 好 地 进行 散 列 。 最 好 的 情况 是 能 避免 
碰撞 的 发 生 ， 即 使 不 能 避免 ， 也 应 该 使 碰撞 在 最 小 程度 下 产生 。 一 般 来 说 ， 都 将 关键 字 转 
换 成 自然 数 ， 然 后 通过 除法 散 列 、 乘 法 散 列 或 全 域 散 列 来 实现 。 数 据 库 中 一 般 采 用 除法 散 


www.TopSage.com 


FSR 201 


列 的 方法 。 
在 用 来 设计 哈 希 函数 的 除法 散 列 法 中 ， 通 过 取 k 除 以 m 的 余数 ， 来 将 关键 字 k 映 射 到 m 
个 槽 的 某 一 个 去 。 即 哈 希 函数 为 : 
h(k) = k mod m 


5.7.2 InnoDB 存 储 引擎 中 的 哈 希 算法 


InnoDB 存 储 引 擎 使 用 哈 希 算法 对 字典 进行 查找 ， 其 冲突 机 制 采用 链表 方式 ， 哈 希 函 数 
采用 除法 散 列 方式 。 对 于 缓冲 池 页 的 哈 希 表 来 说 , 在 缓冲 池 中 的 Page 页 都 有 一 个 chain 指 针 ， 
它 指向 相同 哈 希 函数 值 的 页 。 而 对 于 除法 散 列 ，m 的 取 值 为 略 大 于 2 倍 的 缓冲 地 页 数量 的 质 
数 。 例 如 : 当前 参数 innodb_buffer_pool_size 的 设置 大 小 为 10MB ， 则 共有 640 个 16KB 的 页 。 
那 对 于 缓冲 池 页 内 存 的 哈 希 表 来 说 ， 需 要 分 配 640 x 2=1280 个 槽 ， 但 是 1280 不 是 质数 ， 需 
要 取 比 1 280 略 大 的 一 个 质数 ， 应 该 是 1399， 所 以 在 启动 时 会 分 配 1399 个 烛 的 哈 希 表 ， 用 
RS EMER PH. CRRA BRIS SH, STREET, A 
共 需 要 20+4 x 1399=56164 F$. H HEA xx 892047 $45 Minnodb_additional_mem_pool_ 
size 中 进行 分 配 ，4 x 1399=5596 个 字 节 从 系统 申请 分 配 。 因 此 在 对 InnoDB 存 储 引 擎 进行 内 
存 分 配 规 划 时 ， 也 应 该 规划 好 哈 希 表 这 部 分 内 存 ， 这 部 分 内 存 一 般 从 系统 分 配 ， 没 有 参数 
可 以 控制 。 对 于 前 面 我 们 说 的 128GB 的 缓冲 池内 存 ， 则 分 配 的 哈 希 表 和 槽 一 共 需 要 差不多 
640MB 的 额外 内 存 空 间 。 

那 InnoDB 存 储 引 擎 对 于 页 是 怎么 进行 查找 的 呢 ? 上 面 只 是 给 出 了 一 般 的 算法 ， 怎 么 将 
要 查找 的 页 转换 成 自然 数 呢 ? 

其 实 也 很 简单 ，InnoDB 存 储 引 擎 的 表 空 间 都 有 一 个 space 号 ， 我 们 要 查 的 应 该 是 某 个 
表 空 间 的 某 个 连续 16KB 的 页 ， 即 偏 移 量 offset。InnoDB 存 储 引 擎 将 space 左 移 20 位 ， 然 后 
加 上 这 个 space 和 offset， 即 关键 字 K=space << 20 + space + offset， 然 后 通过 除法 散 列 到 各 
^ir. 


5.7.3 自 适应 哈 希 索引 
自 适 应 哈 希 索引 采用 之 前 ， 我 们 讨论 哈 希 表 的 方式 实现 。 不 同 的 是 ， 这 又 是 数据 库 自 
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己 创建 并 使 用 的 ，DBA 本 身 并 不 能 对 其 进行 干预 。 当 在 配置 文件 中 启用 了 参数 innodb_ 
adaptive_hash_index 后 ， 数 据 库 启 动 时 会 自动 创建 槽 数 为 innodb_buffer_pool_ size/256 个 的 
哈 希 表 。 例 如 ， 对 当前 参数 innodb_buffer_pool_size 设 置 为 0OMB， 则 启动 时 InnoDB 存 储 引 
柳 会 创建 一 个 有 10M/256=40 960 个 槽 的 自 适 应 哈 希 表 。 

自 适应 哈 希 索引 经 哈 希 阔 数 映射 到 一 个 哈 希 表 中 ， 因 此 自 适 应 哈 希 索引 对 于 字典 类 型 
的 查找 非常 快速 ， 如 SELECT * FROM TABLE WHERE index_col = 'xxx!， 但 是 对 于 范围 查 
找 就 无 能 为 力 了 。 通 过 命令 SHOW ENGINE INNODB STATUS 可 以 看 到 当前 自 适应 哈 希 索 
引 的 使 用 状况 ， 如 : 


mysql» show engine innodb status\G; 


cock ck cede ce de ce e de de ke de ko ko kokokok k kk l. LOW koc ck kc koc koe oe ke ke e ke e e kk ke kkk 


Status: 


400000 


Ibuf: size 2249, free list len 3346, seg size 5596, 
374650 inserts, 51897 merged recs, 14300 merges 

Hash table size 4980499, node heap has 1246 buffer(s) 
1640.60 hash searches/s, 3709.46 non-hash searches/s 


PI 


现在 可 以 看 到 自 适应 哈 希 索引 的 使 用 信息 了 ， 包 括 自 适 应 哈 希 索 引 的 大 小 、 使 用 情况 、 
每 秒 使 用 自 适 应 哈 希 索引 搜索 的 情况 。 需 要 注意 的 是 , 哈 希 索引 只 能 用 来 搜索 等 值 的 查询 ， 
如 select * from table where index col = xxx'， 而 对 于 其 他 查找 类 型 ， 如 范围 查找 ， 是 不 能 
使 用 哈 希 索引 的 。 因 此 ， 这 里 出 现 了 non-hash searches/s 的 情况 。hash searches : non-hash 
searches 可 以 大 概 知道 使 用 哈 希 索引 后 的 效率 。 

由 于 自 适 应 哈 希 索引 是 由 InnoDB 存 储 引 擎 自己 控制 的 ， 所 以 这 里 的 信息 只 供 我 们 参 
考 而 已 。 不 过 我 们 可 以 通过 参数 innodb_adaptive_hash_index 来 禁用 或 启动 此 特性 ， 默 认 
为 开启 。 
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5.8 小 结 


这 一 章 中 ， 我 们 介绍 了 一 些 常用 的 数据 结构 ， 如 二 分 查找 树 、 平 衡 树 、B+ 树 、 直 接 寻 
址 表 和 哈 希 表 。 我 们 还 从 数据 结构 的 角度 ， 切 入 数据 库 中 常见 的 B+ 树 索 引 和 哈 希 索引 的 使 
用 ， 并 从 内 部 机 制 上 讨论 了 使 用 上 述 索 引 的 环境 和 优化 方法 。 
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开发 多 用 户 、 数 据 库 驱 动 的 应 用 时 ， 最 大 的 一 个 难点 是 : 一 方面 要 最 大 程度 地 利用 数 
据 库 的 并 发 访问 ， 另 外 一 方面 还 要 确保 每 个 用 户 能 以 一 致 的 方式 读 取 和 修改 数据 。 为 此 就 
有 了 锁 (locking) 机 制 ， 这 也 是 数据 库 系统 区 别 于 文件 系统 的 一 个 关键 特性 。InnoDB 存 
储 引 擎 较 之 MySQL 数 据 库 的 其 他 存储 引擎 ， 在 这 方面 技 高 一 筹 ， 其 实现 方式 非常 类 似 于 
Oracle 数 据 库 。 只 有 正确 了 解 内 部 这 些 锁 的 机 制 ， 才 能 完全 发 挥 InnoDB 存 储 引 擎 在 锁 方 面 

在 这 一 章 中 ， 我 们 将 详细 介绍 InnoDB 存 储 引擎 对 表 中 数据 的 锁定 ， 同 时 分 析 InnoDB 
存储 引擎 会 以 怎样 的 粒度 锁定 数据 。 本 章 还 对 MyISAM、Oracle、SQL Server 之 间 的 锁 进 
行 了 比较 ， 主 要 是 为 了 消除 关于 行 级 锁 的 一 个 “神话 ”， 人 们 认为 行 级 锁 总 会 增加 开销 。 
实际 上 ， 只 有 当 实 现 本 身 会 增加 开销 时 ， 行 级 锁 才 会 增加 开销 。InnoDB 存 储 引擎 不 需要 锁 
升级 ， 因 为 一 个 锁 和 多 个 锁 的 开销 是 相同 的 。 


6.1 什么 是 锁 


锁 是 数据 库 系统 区 别 于 文件 系统 的 一 个 关键 特性 。 锁 机 制 用 于 管理 对 共享 资源 的 并 发 
访问 e 。InnoDB 存 储 引擎 会 在 行 级 别 上 对 表 数 据 上 锁 ， 这 固然 不 错 。 不 过 InnoDB 存 储 引 
擎 也 会 在 数据 库 内 部 其 他 多 个 地 方 使 用 锁 ， 从 而 允许 对 多 种 不 同 资源 提供 并 发 访问 。 例 如 ， 
操作 缓冲 池 中 的 LRU 列 表 ， 删 除 、 添 加 、 移 动 LTRU 列 表 中 的 元 素 ， 为 了 保证 一 致 性 ， 必 须 
有 锁 的 介入 。 数 据 库 系统 使 用 锁 是 为 了 支持 对 共享 资源 进行 并 发 访问 ， 提 供 数据 的 完整 性 
和 一 致 性 。 

另 一 点 需要 理解 的 是 ， 虽 然 现在 数据 库 系 统 做 得 越 来 越 类 似 ， 但 是 有 多 少 种 数据 库 ， 


O 注意 : 这 里 说 的 是 “共享 资源 ”"， 而 不 仅仅 是 “ 行 记录 ”。 
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就 可 能 有 多 少 种 锁 的 实现 方法 。 在 SQL 语法 层面 ， 因 为 SQL 标准 的 存在 ， 要 熟悉 多 个 关系 
数据 库 系 统 并 不 是 一 件 难事 。 而 对 于 锁 ， 你 可 能 对 某 个 特定 的 关系 数据 库 系 统 的 锁定 模型 
有 一 定 的 经 验 ， 但 这 并 不 意味 着 你 知道 其 他 数据 库 。 在 使 用 InnoDB 存 储 引 擎 之 前 ， 我 还 使 
用 过 MySQL 的 MyISAM 和 NDB Cluster 存 储 引擎 ， 在 使 用 MySQL 之 前 ， 我 还 使 用 过 
Microsoft SQL Server、Oracle 等 数据 库 ， 但 它们 对 于 锁 的 实现 完全 不 同 。 

对 于 MyISAM 引 警 来 说 ， 其 锁 是 表 锁 。 并 发 情况 下 的 读 没 有 问题 ， 但 是 并 发 插入 时 的 
性 能 就 要 差 一 些 了 ， 若 插入 是 在 “底部 ”的 情况 ，MyISAM 引 柳 还 是 可 以 有 一 定 的 并 发 操 
作 。 对 于 Microsoft SQL Server 来 说 ， 在 Microsoft SQL Server 2005 版 本 之 前 都 是 页 锁 的 ， 
相对 表 锁 的 MyISAM 引 擎 来 说 ， 并 发 性 能 有 所 提高 。 到 2005 版 本 ，Microsoft SQL Server 开 
始 支持 乐观 并 发 和 悲观 并 发 。 在 乐观 并 发 下 开始 支持 行 级 锁 ， 但 是 其 实现 方式 与 InnoDB 存 
储 引 擎 的 实现 方式 完全 不 同 。 你 会 发 现在 Microsoft SQL Server 下 ， 锁 是 一 种 稀有 的 资源 ， 
锁 越 多 ， 开 销 就 越 大 ， 因 此 它 会 有 锁 升 级 。 在 这 种 情况 下 ， 行 锁 会 升级 到 表 锁 ， 这 时 并 发 
的 性 能 又 回 到 了 以 前 。 | 

InnoDB 存 储 引擎 锁 的 实现 和 Oracle 非 常 类 似 ， 提 供 一 致 性 的 非 锁定 读 、 行 级 锁 支 持 ， 
行 级 锁 没 有 相关 的 开销 ， 可 以 同时 得 到 并 发 性 和 一 致 性 。 


6.2 InnoDB 存 储 引擎 中 的 锁 
6.2.1 锁 的 类 型 


InnoDB 存 储 引擎 实现 了 如 下 两 种 标准 的 行 级 锁 ; 

CHEB (S Lock) ， 允 许 事务 读 一 行 数据 。 

C) 排他 锁 (X Lock) ， 人 允许 事务 删除 或 者 更 新 一 行 数 据 。 

当 一 个 事务 已 经 获得 了 行 r 的 共享 锁 ， 那 么 另外 的 事务 可 以 立即 获得 行 r 的 共享 锁 ， 因 
为 读 取 并 没有 改变 行 r 的 数据 ， 我 们 称 这 种 情况 为 锁 兼 容 。 但 如 果 有 事务 想 获得 行 r 的 排他 
锁 ， 则 它 必须 等 待 事务 释放 行 T 上 的 共享 锁 一 一 这 种 情况 我 们 称 为 锁 不 兼容 。 表 6-1 列 出 了 
共享 锁 和 排他 锁 的 兼容 性 。 
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RO1 排他 锁 和 共享 锁 的 兼容 性 


X S 
X 冲突 冲突 
S 冲突 X 





InnoDB 存 储 引擎 支持 多 粒度 锁定 , 这 种 锁定 允许 在 行 级 上 的 锁 和 表 级 上 的 锁 同 时 存在 。 
为 了 支持 在 不 同 粒度 上 进行 加 锁 操 作 ，InnoDB 存 储 引擎 支持 一 种 额外 的 锁 方式 ， 我 们 称 之 
为 意向 锁 。 意 向 锁 是 表 级 别 的 锁 ， 其 设计 目的 主要 是 为 了 在 一 个 事务 中 揭示 下 一 行将 被 请 
求 的 锁 的 类 型 。InnoDB 存 储 引擎 支持 两 种 意向 锁 : 

O 意向 共享 锁 (IS Lock) ， 事 务 想 要 获得 一 个 表 中 某 几 行 的 共享 锁 。 

O 意向 排他 锁 (IX Lock)， 事 务 想 要 获得 一 个 表 中 某 几 行 的 排他 锁 。 

因为 InnoDB 存 储 引擎 支持 的 是 行 级 别 的 锁 ， 所 以 意向 锁 其 实 不 会 阻 寒 除 全 表 扫 以 外 的 
任何 请 求 。 

可 以 通过 SHOW ENGINE INNODB STATUS 命 令 来 查看 当前 请 求 锁 的 信息 : 


mysql> show engine innodb status\G; 


Trx id counter 48B89BF | 

Purge done for trx's n:o < 48B89BA undo n:o < 0 

History list length 0 

LIST OF TRANSACTIONS FOR EACH SESSION: 

---TRANSACTION 0, not started, process no 13757, OS thread id 1255176512 

MySQL thread id 42, query id 80424887 localhost root 

Show engine innodb status 

---TRANSACTION 48B89BE, ACTIVE 193 sec, process no 13757, OS thread id 
1254910272 starting index read 

mysql tables in use 1, locked 1 

LOCK WAIT 2 lock struct(s), heap size 368, 1 row lock(s) 

MySQL thread id 41, query id 80424886 localhost root Sending data 

select * from t where a « 4 lock in share mode 

-————-- TRX HAS BEEN WAITING 2 SEC FOR THIS LOCK TO BE GRANTED: 

RECORD LOCKS space id 30 page no 3 n bits 72 index 'PRIMARY'.of table 'test'.'t' 
trx id 48B89BE lock mode S waiting 


TABLE LOCK table 'test'.'t' trx id 48B89BE lock mode IS 
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RECORD LOCKS space id 30 page no 3 n bits 72 index 'PRIMARY' of table 'test'.'t' 
trx id 48B89BE lock mode S waiting 

---TRANSACTION 48B89BD, ACTIVE 205 sec, process no 13757, OS thread id 
1257838912 

2 lock struct(s), heap size 368, 1 row lock(s) 

MySQL thread id 40, query id 80424881 localhost root 

TABLE LOCK table 'test'.'t' trx id 48B89BD lock mode IX 

RECORD LOCKS space id 30 page no 3 n bits 72 index 'PRIMARY' of table 'test'.'t' 
trx id 48B89BD lock mode X locks rec but not gap 


1 row in set (0.01 sec) 


可 以 看 到 SQL 语 名 select * from t where a < 4 lock in share modefE 5] £$, RECORD 
LOCKS space id 30 page no 3 n bits 72 index 'PRIMARY' of table 'test'.'t' trx id 48B89BD 
lock mode X locks rec but not gap 表 示 锁 住 的 资源 。1locks rec but not gap 代 表 锁 住 是 一 个 索 
引 ， 不 是 一 个 范围 。 
在 InnoDB Plugin 之 前 ， 我 们 只 能 通过 SHOW FULL PROCESSLIST、SHOW ENGINE 
INNODB STATUS 等 命令 来 查看 当前 的 数据 库 请 求 ， 然 后 再 判断 当前 事务 中 锁 的 情况 。 新 
版 本 的 InnoDB Plugin 中 ， 在 INFORMATION_SCHEMA 架 构 下 添加 了 INNODB_TRX、 
INNODB_LOCKS、INNODB_LOCK_WAITS。 通 过 这 三 张 表 ， 可 以 更 简单 地 监控 当前 的 
事务 并 分 析 可 能 存在 的 锁 的 问题 。 通 过 实例 我 们 来 分 析 这 三 张 表 ， 先 看 表 INNODB_TRX， 
INNODB_TRX 由 8 个 字段 组 成 ， 
O trx_id; InnoDB 存 储 引 擎 内 部 唯一 的 事务 ID。 
Otrx_state: 当前 事务 的 状态 。 
口 trx_started: 事务 的 开始 时 间 。 
口 trx_requested_lock_id: 等 待 事务 的 锁 ID 。 如 trx_state 的 状态 为 LOCK WAIT， 那 么 
该 值 代表 当前 的 事务 等 待 之 前 事务 占用 锁 资 源 的 ID 。 若 trx_state 不 是 LOCK WAIT, 
则 该 值 为 NULL。 

口 trx_wait_started: 事务 等 待 开始 的 时 间 。 

Otrx_weight: 事务 的 权重 ， 反 映 了 一 个 事务 修改 和 锁 住 的 行 数 。 在 InnoDB 存 储 引 警 
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BOX, 


中 ， 当 发 生死 锁 需 要 回 滚 时 ，InnoDB 存 储 引擎 会 选择 该 值 最 小 的 进行 回 滚 。 
O trx_mysql_thread_id; MySQL 中 的 线程 ID ，SHOW PROCESSLIST 显 示 的 结果 。 
Qtrx query; 事务 运行 的 SQL 语句 。 在 实际 使 用 中 发 现 ， 该 值 有 时 会 显示 为 NULL 


(不 知道 是 不 是 Bug) 。 


一 个 具体 的 例子 如 下 : 


mysql» select * from information schema.INNODB TRX\G; 


eee de e e he e e e e ke e e e e e e e e e e kx x 1, 


trx id: 

trx state: 

trx started: 

trx requested lock id: 
trx wait started: 

trx weight: 

trx mysql thread id: 
trx query: 


fe Se e e e ee hee ee e he de e ee de e e e x à x xn xà 2, 


trx id: 

trx state: 

trx started: 

trx requested lock id: 
trx wait started: 

trx weight: 

trx mysql thread id: 
trx query: 


LOW **k dee de eoe eee e e e ee e ke e e e e e n A 
7311F4 

LOCK WAIT 

2010-01-04 10:49:33 

7311F4:96:3:2 

2010-01-04 10:49:33 

2 

471719 

select * from parent lock in share mode 
row e he e he he he he he he e de he hehehe e e ee e he hee eee x 
730FEE 

RUNNING 

2010-01-04 10:18:37 

NULL 

NULL 

2 

471718 

NULL 


2 rows in set (0.00 sec) 


可 以 看 到 ， 事 务 730FEE 当 前 正在 运行 ， 


而 事务 7311F4 目 前 处 于 “LOCK WAIT” 状态 ， 


运行 的 SQL 语句 是 select * from parent lock in share mode。 这 个 只 是 显示 了 当前 运行 的 
InnoDB 的 事务 ， 并 不 能 判断 锁 的 一 些 情况 ， 如 果 需 要 查看 锁 ， 则 需要 INNODB_LOCKS 表 ， 
该 表 由 如 下 字段 组 成 : 

Qlock_id; 锁 的 ID。 

Dock trx id; 事务 ID。 

Qlock mode; 锁 的 模式 。 

Qlock_type: 锁 的 类 型 ， 表 锁 还 是 行 锁 。 

Qlock_table; 要 加 锁 的 表 。 
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口 lock_index:， 锁 的 索引 。 
口 lock_space: InnoDB 存 储 引 擎 表 空间 的 ID 号 。 

口 lock_page; 被 锁 住 的 页 的 数量 。 者 是 表 锁 ， 则 该 值 为 NULL。 
口 lock_rec: 被 锁 住 的 行 的 数量 。 若 是 表 锁 ， 则 该 值 为 NULL。 
Qlock_data; 被 锁 住 的 行 的 主键 值 。 当 是 表 锁 时 ， 该 值 为 NULL。 
接着 上 面 的 例子 ， 我 们 继续 查看 INNODB_LOCKS 表 : 


mysql» select * from information schema. INNODB_LOCKS\G; 
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ak e e ce fe e ce e e ce e e ce e eoe oe kc kc k ck ko ko ko koX l. X OW koe de fe e eoe eoe eoe eoe eek e e e KK 


lock id: 7311F4:96:3:2 
lock trx id: 7311F4 
lock mode: S 
lock type: RECORD 
lock table: 'mytest'.'parent' 
lock index: 'PRIMARY' 
lock space: 96 
lock page: 3 
lock rec: 2 
lock data: 1 


kkkhh kkk kkk kkk kk k k k k k k k ke ke ke k 2. 
lock_id: 
lock_trx_id: 
lock_mode: 
lock_type: 

. lock table: 
lock index: 
lock space: 
lock page: 
lock rec: 
lock data: 


730FEE:96:3:2 
730FEE 

X 

RECORD 


'mytest'.'parent' 


'PRIMARY' 
96 

3 

2 

1 


LOW ****k ck cce che che ce ZI eoe e eee t n LI 


2 rows in set (0.00 sec) 


这 次 可 能 看 到 当前 锁 的 信息 了 ，ID 为 730FEE 的 事务 向 表 parent 加 了 一 个 X 的 行 锁 ，ID 
为 7311F4 的 事务 向 表 parent 申 请 了 一 个 的 行 锁 。lock_data 都 是 1， 申 请 相同 的 资源 ， 因 此 
会 有 等 待 。 这 也 可 以 解释 INNODB_TRX 中 为 什么 一 个 事务 的 trx_state 是 “RUNNING”， 另 
一 个 是 “LOCK WAIT" T, 

另外 需要 注意 的 是 ， 我 发 现 lock_data 这 个 值 并 非 是 “可 和信” 的 值 。 例 如 当 我 们 运行 一 
个 范围 查找 时 ，lock_data 可 能 只 返回 第 一 行 的 主键 值 。 另 一 个 不 能 忽视 的 是 ， 如 果 当前 次 
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源 被 锁 住 了 ， 与 此 同时 ， 由 于 锁 住 的 页 因为 InnoDB 存 储 引擎 缓冲 池 的 容量 ， 而 导致 替换 组 
促 礼 该 页 ， 当 查看 INNODB_LOCKS 表 时 ， 该 值 会 显示 为 NULL， 即 InnoDB 存 储 引 擎 不 会 
从 磁盘 进行 再 一 次 查找 ，。 

查处 了 每 张 表 上 锁 的 情况 后 ， 我 们 可 以 来 判断 由 此 而 引发 的 等 待 情况 了 。 当 事务 较 小 
时 ， 我 们 人 为 地 、 直 观 地 就 可 以 进行 判断 了 。 但 是 当 事 务 量 非常 大 ， 锁 和 等 待 也 时 常 发 生 
时 ， 这 个 时 候 不 容易 判断 ， 但 是 通过 INNODB_LOCK_WAITS， 可 以 很 直观 地 反映 出 当前 
的 等 待 。INNODB_LOCK_WAITS 由 4 个 字段 组 成 

口 requesting trx id; 申请 锁 资 源 的 事务 ID。 | 

口 requesting_lock_id， 申 请 的 锁 的 ID。 

口 blocking_trx_id: 阻塞 的 事务 ID。 

口 blocking_trx_id， 阻塞 的 锁 的 ID。 

接着 上 面 的 例子 ， 运 行 如 下 查询 ， 


mysql> select * from information schema.INNODB_LOCK_WAITS\G; 


e cé ee ce kk cede ce cede ce cede e He He ce he He he ck he e LI l. 


requesting trx id: 7311F4 


requested lock id: 
blocking trx id: 
blocking lock id: 


730FEE 


1 row in set (0.00 sec) 


7311F4:96:3:2 


730FEE:96:3:2 


OW oko ce e e e e e e che e e e ke ke Li 


这 次 我 们 可 以 清楚 直观 地 看 到 哪个 事务 阻塞 了 另 一 个 事务 。 当然 这 里 只 给 出 了 事务 和 
锁 的 ID ， 如 果 需 要 根据 INNODB_TRX、INNODB_LOCKS、INNODB_LOCK_WAITS 这 三 


张 表 直 观 地 看 到 详细 信息 ， 我 们 可 以 执行 如 下 联合 查询 : 


mysql» SELECT r.trx id waiting trx id, r.trx mysql thread id waiting thread, 


r.trx query waiting query, b.trx id blocking trx id, b.trx mysql thread id 


blocking thread, 
lock waits w INNER JOIN information schema.innodb trx b ON b.trx id 


w.blocking trx id INNER JOIN information schema.innodb trx r ON r.trx id 


w.requesting trx_id\G; 


te ecce ce ce ce ce ce e ee ce eode dece KKK che e de 6 Li I. 
waiting trx id: 
waiting thread: 

waiting query: 
blocking trx id: 
blocking thread: 


73122F 
471719 
NULL 

7311FC 
471718 
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b.trx query blocking query FROM information schema.innodb 
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blocking_query: NULL 


1 row in set (0.00 sec) 


6.2.2 一 致 性 的 非 锁定 读 操作 


一 致 性 的 非 锁定 行 读 (consistent nonlocking read) 是 指 InnoDB 存 储 引擎 通过 行 多 版 本 
控制 (multi versioning) 的 方式 来 读 取 当 前 执行 时 间 数 据 库 中 行 的 数据 。 如 果 读 取 的 行 正 
在 执行 DELETE、UPDATE 操 作 ， 这 时 读 取 操 作 不 会 因此 而 会 等 待 行 上 锁 的 释放 ， 相 反 ， 
InnoDB 存 储 引 擎 会 去 读 取 行 的 一 个 快照 数据 。 如 图 6-1 所 示 : 





Snapshot Date Snaphost Date 2 





图 6-1 InnoDB 存 储 引擎 非 锁定 的 一 致 性 读 


图 6-1 直 观 地 展现 了 InnoDB 存 储 引 擎 一 致 性 的 非 锁 定 读 。 之 所 以 称 其 为 非 锁定 读 ， 因 
为 不 需要 等 待 访 问 的 行 上 X 锁 的 释放 。 快 照 数据 是 指 该 行 之 前 版 本 的 数据 ， 该 实现 是 通过 
Undo 段 来 实现 。 而 Undo 用 来 在 事务 中 回 滚 数 据 ， 因 此 快照 数据 本 身 是 没有 额外 的 开销 。 
此 外 ， 读 取 快 照 数据 是 不 需要 上 锁 和 的 ， 因 为 没有 必要 对 历史 的 数据 进行 修改 。 

可 以 看 到 ， 非 锁定 读 的 机 制 大 大 提高 了 数据 读 取 的 并 发 性 ， 在 InnoDB 存 储 引 擎 默认 设 
置 下 ， 这 是 默认 的 读 取 方式 ， 即 读 取 不 会 占用 和 等 待 表 上 的 锁 。 但 是 在 不 同事 务 隔 离 级 别 
下 ， 读 取 的 方式 不 同 ， 并 不 是 每 个 事务 隔离 级 别 下 读 取 的 都 是 一 致 性 读 。 同 样 ， 即 使 都 是 


www.TopSage.com 





212 £6 


Wy 


使 用 一 致 性 读 ， 但 是 对 于 快照 数据 的 定义 也 不 相同 。 

通过 图 6-1 我 们 知道 , 快照 数据 其 实 就 是 当前 行 数 据 之 前 的 历史 版 本 , 可 能 有 多 个 版 本 。 
就 图 6-1 显 示 的 ， 一 个 行 可 能 有 不 止 一 个 快照 数据 。 我 们 称 这 种 技术 为 行 多 版 本 技术 。 由 此 
带 来 的 并 发 控制 ， 称 之 为 多 版 本 并 发 控制 (Multi Version Concurrency Control, MVCC), 

在 Read Committed 和 Repeatable Read (InnoDB 存 储 引擎 的 默认 事务 隔离 级 别 ) 下 ， 
InnoDB 存 储 引擎 使 用 非 锁定 的 一 致 性 读 ， 然 而 ， 对 于 快照 数据 的 定义 却 不 相同 。 在 Read 
”Committed 事 务 隔离 级 别 下 ， 对 于 快照 数据 ， 非 一 致 性 读 总 是 读 取 被 锁定 行 的 最 新 一 份 快 
照 数据 。 在 Repeatable 事 务 隔离 级 别 下 和 Repeatable Read 事 务 隔离 级 别 下 ， 对 于 快照 数据 ， 
非 一 致 性 读 总 是 读 取 事务 开始 时 的 行 数据 版 本 。 我 们 来 看 个 例子 ， 在 一 个 MySQL 的 连接 会 
话 A 中 执行 如 下 事务 : 


$ Session A 
mysql» begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql> select * from parent where id = 1; 


十 一 一 一 一 十 
| ia | 
+----+ 
| 11 
+----+ 


1 row in set (0.00 sec) 


会 话 A 中 事务 已 Begin (开始 )， 读 取 了 id=1 的 数据 ,但 是 没有 结束 事务 。 这 时 我 们 再 
开启 男 一 个 会 话 B， 这 样 可 以 模拟 并 发 的 情况 ， 然 后 对 会 话 B 做 如 下 操作 : 
mysql> begin; 


Query OK, 0 rows affected {0.00 sec) 


mysql» update parent set id=3 where id-1; 
Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 Warnings: 0 


会 话 B 中 将 id=1 的 行 修改 为 id=3， 但 是 事务 同样 没有 提交 ， 这 样 id=1 的 行 其 实 加 了 一 个 
X 锁 。 这 时 如 果 再 在 会 话 A 中 读 取 id=1 的 数据 ， 根 据 InnoDB 存 储 引擎 的 特性 ， 在 Read 
Committed 和 Repeatable Read 的 事务 隔离 级 别 下 ， 会 使 用 非 锁定 的 一 致 性 读 。 我 们 回 到 会 
话 A， 接 着 上 次 未 提交 的 事务 ， 执 行 select * from parent where id = 1 的 操作 ， 这 时 不 管 使 
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用 Read Committed 还 是 Repeatable 的 事务 隔离 级 别 ， 显 示 的 数据 应 该 都 是 : 


mysql» select * from parent where id = 1; 


+-+ 
| id | 
+----+ 
L 3X1 
4----4 


1 row in set (0.00 sec) 


因为 当前 id=1 的 数据 被 修改 了 1 次 ， 因 此 只 有 一 个 版 本 的 数据 。 接 着 ， 我 们 在 会 话 B 中 
提交 上 次 的 事务 。 如 ， 


# Session B 
mysql» commit; 


Query OK, 0 rows affected (0.01 sec) 


会 话 B 提 交 事 务 后 ， 这 时 在 会 话 A 中 再 运行 select * from parent where id = 1 的 SQL 语句 ， 
在 Read Committed 和 Repeatable 事 务 隔离 级 别 下 得 到 的 结果 就 不 一 样 了 。 对 于 Read 
Committed 的 事务 隔离 级 别 ， 它 总 是 读 取 行 的 最 新 版 本 ， 如 果 行 被 锁定 了 ， 则 读 取 该 行 版 
本 的 最 新 一 个 快照 (fresh snapshot) 。 在 上 述 例子 中 ， 因 为 会 话 B 已 经 提交 了 事务 ， 所 以 
Read Committed 事 务 隔离 级 别 下 会 得 到 如 下 结果 : 


mysql» select @@tx_isolation; 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| @@tx_isolation | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| READ-COMMITTED | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


mysql» select * from parent where id = 1; 
Empty set (0.00 sec) 


对 于 Repeatable 的 事务 隔离 级 别 ， 总 是 读 取 事务 开始 时 的 行 数据 。 因 此 对 于 Repeatable 
Read 事 务 隔离 级 别 ， 其 结果 如 下 : 


mysql> select @@tx isolation; 


| REPEATABLE-READ | 
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1 row in set (0.00 sec) 


mysqdl» select * from parent where id - 1; 


+----+ 
| id | 
+----+ 
| 1] 
+----+ 


1 row in set (0.00 sec) 


下 面 将 从 时 间 的 角度 展现 上 述 演示 的 示例 。 对 于 Read Committed 的 事务 隔离 级 别 而 言 ， 
从 数据 库 理 论 的 角度 来 看 ， 其 实 违 反 了 事务 ACID 中 的 I 的 特性 ， 即 隔离 性 。 


Time Session A Session B 
| begin; 
select * from parent where id = 1; 
begin; 
update parent set id=3 where id = 1; 
select * from parent where id - 1; 


| 

| 

| 

| 

| commit; 
| select * from parent where id - 1; 

V 


commit; 


6.2.3 SELECT ... FOR UPDATE & SELECT ... LOCK IN SHARE MODE 


6.2.2 小 节 讲 到 ， 在 默认 情况 下 ，InnoDB 存 储 引擎 的 SELECT 操作 使 用 一 致 性 非 锁定 读 。 
但 是 在 某 些 情况 下 ， 我 们 需要 对 读 取 操 作 进行 加 锁 。InnoDB 存 储 引擎 对 于 SELECT 语句 支 
持 两 种 加 锁 操 作 : 
O SELECT … FOR UPDATE 对 读 取 的 行 记 录 加 一 个 X 锁 。 其 他 事务 想 在 这 些 行 上 加 
任何 锁 都 会 被 阻塞 。 
D) SELECT ... LOCK IN SHARE MODE 对 读 取 的 行 记录 加 一 个 S 锁 。 其 他 事务 可 以 向 
被 锁定 的 记录 加 S 锁 ， 但 是 对 于 加 X 锁 ， 则 会 被 阻塞 。 
对 于 一 致 性 非 锁定 读 ， 即 使 读 取 的 行 已 被 使 用 SELECT ... FOR UPDATE， 也 是 可 以 进 
行 读 取 的 。 另 外 ，SELECT ... FOR UPDATE, SELECT ... LOCK IN SHARE MODE 必 须 在 
一 个 事务 中 ， 当 事务 提交 了 ， 锁 也 就 释放 了 。 因 为 在 使 用 上 述 两 名 SELECT 锁定 语句 时 ， 
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务必 加 上 BEGIN、START TRANSACTION 或 者 SET AUTOCOMMIT=0, 


6.2.4 自 增长 和 锁 


自 增 长 在 数据 库 中 是 非常 常见 的 一 种 属性 ， 也 是 很 多 DBA 或 开发 人 员 首 选 的 主键 方式 。 
在 ImnoDB 存 储 引擎 的 内 存 结构 中 ， 对 每 个 含有 自 增长 值 的 表 都 有 一 个 自 增长 计数 器 (auto- 
increment counter) 。 当 对 含有 自 增 长 计数 器 的 表 进 行 插入 操作 时 ， 这 个 计数 器 会 被 初始 化 ， 
执行 如 下 的 语句 来 得 到 计数 器 的 值 : 

SELECT MAX(auto inc col) FROM t FOR UPDATE; 

插入 操作 会 依据 这 个 自 增长 的 计数 器 值 加 1 赋予 自 增长 列 。 这 个 实现 方式 称 做 AUTO- 
INC Locking。 这 种 锁 其 实 是 采用 一 种 特殊 的 表 锁 机 制 ， 为 了 提高 插入 的 性 能 ， 锁 不 是 在 
一 个 事务 完成 后 才 释 放 ， 而 是 在 完成 对 自 增长 值 插入 的 SQL 语 句 后 立即 释放 。 

虽然 AUTO-INC Locking 从 一 定 程度 上 提高 了 并 发 插入 的 效率 ， 但 这 里 还 是 存在 一 些 
问题 。 首 先 ， 对 于 有 自 增 长 值 的 列 的 并 发 插入 性 能 较 差 ， 所 以 必须 等 待 前 一 个 插入 的 完成 
(虽然 不 用 等 待 事务 的 完成 )。 其 次 ， 对 于 INSERT .SELECT 的 大 数据 量 的 插入 ， 会 影响 插 
入 的 性 能 ， 因 为 另 一 个 事务 中 的 插入 会 被 阻塞 。 

从 MySQL 5.1.22 版 本 开始 ，InnoDB 存 储 引擎 中 提供 了 一 种 轻 量 级 互 斥 量 的 自 增长 实现 
机 制 ， 这 种 机 制 大 大 提高 了 自 增 长 值 插入 的 性 能 。 并 且 从 MySQL 5.1.22 版 本 开始 ，InnoDB 
存储 引 警 提供 了 一 个 参数 innodb_autoinc_lock_mode， 软 认 值 为 1。 在 继续 讨论 新 的 自 增长 
实现 方式 之 前 ， 我 们 需要 对 自 增 长 的 插入 进行 分 类 : 

QINSERT-like; INSERT-like 指 所 有 的 插入 语句 ， 如 INSERT、REPLACE、INSERT… 

SELECT, REPLACE--SELECT, LOAD DATA 等 。 

Q Simple inserts; Simple inserts 指 能 在 插入 前 就 确定 插入 行 数 的 语句 。 这 些 语 句 包括 
INSERT、REPLACE 等 。 需 要 注意 的 是 : Simple inserts 不 包含 INSERT ...ON 
DUPLICATE KEY UPDATE 这 类 SQL 语句 。 

Q Bulk inserts; Bulk inserts 指 在 插入 前 不 能 确定 得 到 插入 行 数 的 语句 ， 如 INSERT… 
SELECT，REPLACE…SELECT，LOAD DATA。 

Q Mixed-mode inserts; Mixed-mode inserts 指 插入 中 有 一 部 分 的 值 是 自 增长 的 。 有 一 
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部 分 是 确定 的 ， 如 : INSERT INTO tl (cl,c2) VALUES (1,'a'), (NULL, b), (5,'c'), 
(NULL,d')， 也 可 以 是 指 INSERT ...ON DUPLICATE KEY UPDATE 这 类 SQL 语句 。 
参数 innodb_autoinc_lock_mode 有 三 个 可 选 值 ; ' 
Q innodb autoinc lock mode-0 ”这 是 5.1.22 版 本 之 前 自 增长 的 实现 方式 ， 即 通过 表 锁 
的 AUTO-INC Locking 方 式 。 因 为 有 了 新 的 自 增长 实现 方式 ， 所 以 0 这 个 选项 不 应 该 
是 你 的 首选 项 。 
(J innodb_autoinc_lock_mode=1 这 是 该 参数 的 默认 值 。 对 于 “Simple inserts", 该 值 
会 用 互 斥 量 (mutex) 去 对 内 存 中 的 计数 器 进行 累加 的 操作 。 对 于 “Bulk inserts", 
还 是 使 用 传统 表 锁 的 AUTO-INC Locking 方 式 。 这 样 做 ， 如 果 不 考 虑 回 洲 操 作 ， 对 
于 自 增值 的 增长 还 是 连续 的 。 而 且 在 这 种 方式 下 ，Statement-Based 方 式 的 
Replication 还 是 能 很 好 地 工作 。 需 要 注意 的 是 ， 如 果 已 经 使 用 AUTO-INC Locing 的 
方式 产生 自 增长 的 值 ， 而 这 时 需要 再 进行 “Simple inserts” 的 操作 时 ， 还 是 要 等 待 
AUTO-INC Locking 的 释放 。 
口 innodb_autoinc_lock_mode=2 ”在 这 个 模式 下 ， 对 于 所 有 “INSERT-like” 自 增长 值 
的 产生 都 是 通过 互 斥 量 ， 而 不 是 AUTO-INC Locking 的 方式 。 显 然 ， 这 是 最 高 性 能 
的 方式 。 然 而 ， 这 会 带 来 一 定 的 问题 。 因 为 并 发 插入 的 存在 ， 所 以 每 次 插入 时 ， 自 
增长 的 值 可 能 不 是 连续 的 。 此 外 ， 最 重要 的 是 ， 基 于 Statement-Base Replication 会 
出 现 问题 。 因 此 ， 使 用 这 个 模式 ， 任 何 时 候 都 应 该 使 用 Row-Base Replication。 这 样 
才能 保证 最 大 的 并 发 性 能 和 Replication 数 据 的 同步 。 
对 于 自 增 长 另外 需要 注意 的 是 ，InnoDB 存 储 引 擎 中 的 实现 和 MyISAM 不 同 ，MyISAM 
是 表 锁 的 ， 自 增长 不 用 考虑 并 发 播 入 的 问题 。 因 此 在 Master 用 InnoDB 存 储 引擎 ，Slave 用 
MyISAM 存 储 引 警 的 Replication 架 构 下 你 必须 考虑 这 种 情况 。 
另外 ，InnoDB 存 储 引擎 下 ， 自 增长 值 的 列 必 须 是 索引 ， 并 且 是 索引 的 第 一 个 列 ， 如 果 
是 第 二 个 列 则 会 报错 ， 而 MyISAM 存 储 引 敬 则 没有 这 个 问题 ， 如 : 


mysql> create table t (a int auto increment, b int , key (b,a))engine=InnoDB; 
ERROR 1075 (42000): Incorrect table definition; there can be only one auto 


column and it must be defined as a key 
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mysql» create table t (a int auto increment, b int , key (b,a))engine-MyISAM; 


Query OK, 0 rows affected (0.01 sec) 


6.2.5 外 键 和 锁 


前 面 已 经 介绍 了 外 键 ， 外 键 主要 用 于 引用 完整 性 的 约束 检查 。 在 IanoDB 存 储 引擎 中 ， 
对 于 一 个 外 键 列 , 如 果 没 有 显 式 地 对 这 个 列 加 索引 ,InnoDB 存 储 引擎 自动 对 其 加 一 个 索引 ， 
因为 这 样 可 以 避免 表 锁 一 “这 比 Oracle 做 得 好 ，Oracle 不 会 自动 添加 索引 ， 用 户 必须 自己 
手工 添加 ， 这 也 是 导致 很 多 死 锁 问题 产生 的 原因 。 

对 于 外 键 值 的 插入 或 者 更 新 ， 首 先 需要 查询 父 表 中 的 记录 ， 即 SELECT 父 表 。 但 是 对 
于 父 表 的 SELECT 操作 ， 不 是 使 用 一 致 性 非 锁定 读 的 方式 ， 因 为 这 样 会 发 生 数据 不 一 致 的 
问题 ， 因 此 这 时 使 用 的 是 SELECT ... LOCK IN SHARE MODE 方 式 ， 主 动 对 父 表 加 一 个 S 
锁 。 如 果 这 时 父 表 上 已 经 这 样 加 X 锁 ， 那 么 子 表 上 的 操作 会 被 阻塞 ， 如 下 面 的 例子 所 示 ， 


Session A Session B 
begin; 


delete from parent where id=3; begin; 


insert into child select 2,3 
# 第 二 列 是 外 键 ， 执 行 该 句 时 被 阻塞 


(waiting) 





图 6-2 外 键 测试 用 例 


上 面 的 例子 中 ， 两 个 事务 都 没有 COMMIT 或 者 ROLLBACK ， 这 时 Session B 的 操作 会 
被 阻塞 。 因 为 id=3 的 父 表 上 在 Session A 中 已 经 加 了 一 个 X 锁 ， 而 这 时 我 们 需要 对 父 表 中 
id=3 的 行 加 一 个 S 锁 ， 这 时 insert 的 操作 会 被 阻塞 。 设 想 如 果 访 问 父 表 时 ， 使 用 的 是 一 致 性 
的 非 锁定 读 ， 这 时 Session B 会 读 到 父 表 有 id=3 的 记录 ， 可 以 进行 插入 操作 。 但 是 如 果 
Session A 对 事务 提交 了 ， 则 父 表 中 就 没有 id=3 的 记录 。 数 据 在 父子 表 就 会 存在 不 一 致 的 情 
况 。 如 果 我 们 查询 INNODB_LOCKS 表 ， 会 得 到 如 下 结果 : 


mysql» select * from information schema.INNODB LOCKS\G; 
Ke de e ee ee ee RR RR RR e e e e e e e e e RR ], row Re RR e e e e e e e e k e e e e e e e e e e e k e k 
lock id: 7573B8:96:3:4 
lock trx id: 7573B8 
lock mode: S 
lock type: RECORD 
lock table: 'mytest'.'parent' 
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lock index: 'PRIMARY' 
lock space: 96 

lock page: 3 

lock rec: 4 

lock data: 3 


fe e ke e e he ee ee e e he ce he ee e ke e ce e e e e kx 2, COW 0e ee e ee he e e oe e e e de e e e e e e de e e de e 
lock id: 7573B3:96:3:4 
lock trx id: 7573B3 
lock mode: X 
lock type: RECORD 
lock table: 'mytest'.'parent' 
lock index: 'PRIMARY' 
lock space: 96 
lock page: 3 
lock rec: 4 
lock data: 3 
2 rows in set (0.00 sec) 


6.3 锁 的 算法 


InnoDB 存 储 引 擎 有 3 中 行 锁 的 算法 设计 ， 分 别 是 : 

O Record Lock; 单个 行 记 录 上 的 锁 。 

O Gap Lock; 间隙 锁 ， 锁 定 一 个 范围 ， 但 不 包含 记录 本 身 。 

口 Next-Key Lock; Gap Lock + Record Lock， 锁 定 一 个 范围 ， 并 且 锁 定 记录 本 身 。 

Record Lock 总 是 会 去 锁 住 索引 记录 。 如 果 InnoDB 存 储 引 擎 表 建 立 的 时 候 没 有 设置 任 
何 一 个 索引 ， 这 时 InnoDB 存 储 引擎 会 使 用 隐 式 的 主键 来 进行 锁定 。 

Next-Key Lock 是 结合 了 Gap Lock 和 Record Lock 的 一 种 锁定 算法 ， 在 Next-Key Lock 算 
法 下 ，InnoDB 对 于 行 的 查询 都 是 采用 这 种 锁定 算法 。 对 于 不 同 SQL 查 询 语 句 ， 可 能 设置 共 
享 的 (Share) Next-Key Lock 和 排他 的 (exlusive) Next-Key Lock, 

可 以 通过 一 个 例子 来 演示 Next-Key Lock 的 锁定 算法 ， 建 立 一 张 表 t， 插 入 值 为 1、2、3、 
4、7、8 的 6 条 记录 。 


mysql» create table t (a int , primary key(a))ENGINE-InnoDB; 
Query OK, 0 rows affected (0.00 sec) 


mysql» begin; 
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Query OK, 0 rows affected (0.00 sec) 


mysql> insert into t select 


Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 


mysql» insert into t select 


Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 


mysql» insert into t select 


Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 


1; 


2; 


3; 


mysql> insert into t select 4; 


Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 


mysql> insert into t select 


Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 


mysql> insert into t select 


Query OK, 1 row affected (0.01 sec) 


Records: 1 Duplicates: 0 


mysql> commit; 


7; 


8; 


Warnings: 0 


Warnings: O0 


Warnings: 0 


Warnings: 0 


Warnings: 0 


Warnings: 0 


Query OK, 0 rows affected (0.00 sec) 


mysql> select * from t; 


kkk kk kk kk kk kkk kkk EI ARE EEE E E N 


a: 1 
KKKKKXKKKKKXxXXKkrkkrkkrkkxrkkkkkaX*kk 
a: 2 
KKKKKKKKKKKKKrKKrkKKxkKKxKKrkKrkkkkrkkrkKrkxax* 
a: 3 
kkkkkkkkkkkkkkkkkkkkkkkkk*k 
a: 4 
RKKKKKKEKKKKKKKKKKKKKKKKKKEK 
a: 7 
LIEXZXZEXZZEZEZEREZEZEREZZZEZEREEEI 
a: 8 


6 rows in set (0.00 sec) 


1. 


2. 


3. 


row 


row 


row 


row 


row 


row 


koc che ce ce ce ce cec ce ke ce cede check ce ek ck oko koc kk ok 


koc ceo cce ce che ce ce e ce ce e ce ck koe kk ko koX 


LEREEKEXEZEREZERIEZEIEZIZEZZEZIZIIIZIEZI 


kkkkkkkkkkkkkkkkkkkkkkkk*kkk 


tk ck ce ce ce e cec ese oe ce che che ce cec ce ce ce cce e A AR kx 


KKXKXKKKKKAKKKKKKKKKKKXKKKAKA 


www.TopSage.com 


219 





220 #6 


接着 开启 两 个 会 话 ， 会 话 A 在 一 个 事务 中 执行 select * from t where a < 6 lock in share 
mode， 会 话 B 中 , 插入 小 于 6 或 者 等 于 6 的 记录 ， 如 下 所 示 : 


Time Session A Session B 

| begin; 

| select * from t where a < 6 

| lock in share mode; i begin; 

| insert into t select 5( 或 者 6) ; 
| (blocking) 
V 


在 这 种 情况 下 , 不 论 插入 的 记录 是 5 还 是 6， 都 会 被 锁定 。 因 为 在 Next-Key Lock 算 法 下 ， 
BUTEA (0, 6) 这 个 数值 区 间 的 所 有 数值 。 但 是 插入 9 这 个 数值 是 可 以 的 ， 因 为 该 记 
录 不 在 锁定 的 范围 内 ， 而 对 于 单个 值 的 索引 查询 ， 不 需要 用 到 Gap Lock， 只 要 加 一 个 
Record Lock 即 可 ， 因 此 InnoDB 存 储 引擎 会 自己 选 一 个 最 小 的 算法 模型 。 同 样 ， 对 于 上 面 
的 表 t， 进 行 如 下 操作 : 


Time Session A Session B 
| begin; 
select * from t where a = 7 
lock in share mode; begin; 


insert into t select 5( 或 者 6); 


| 

| 

| 

| | (success) 
" ; 


这 时 插入 记录 5 或 6 都 是 可 行 的 了 。 需 要 注意 的 是 ， 上 面 演示 的 两 个 例子 都 是 在 InnoDB 
的 默认 配置 下 ， 即 事务 的 隔离 级 别 为 REPEATABLE READ 的 模式 下 。 因 为 在 REPEATABLE 
READ 模 式 下 ，Next-Key Lock 算 法 是 默认 的 行 记录 销 定 算法 。 


6.4 锁 问 题 


通过 锁 可 以 实现 事务 的 隔离 性 的 要 求 ， 使 得 事务 可 以 并 发 地 工作 。 锁 提高 了 并 发 ， 但 
是 却 会 带 来 问题 。 不 过 ， 好 在 因为 事务 隔离 性 的 要 求 ， 锁 只 会 带 来 3 种 问题 。 如 果 可 以 防 
止 这 3 种 情况 的 发 生 ， 那 将 不 会 产生 并 发 异常 。 
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6.4.1 丢失 更 新 


丢失 更 新 (lost update) 是 一 个 经 典 的 数据 库 问题 。 实 际 上 ， 所 有 多 用 户 计算 机 系统 
环境 下 有 可 能 产生 这 个 问题 。 简 单 说 来 ， 出 现下 面 的 情况 时 ， 就 会 发 生 丢 失 更 新 : 

(1) 事务 Tl 查询 一 行 数据 ， 放 入 本 地 内 存 ， 并 显示 给 一 个 终端 用 户 User1。 

(2) 事务 T2 也 查询 该 行 数据 ， 并 将 取得 的 数据 显示 给 终端 用 户 User2。 

(3) Userl 修 改 这 行 记 录 ， 更 新 数据 库 并 提交 。 

(4) User2 修 改 这 行 记录 ， 更 新 数据 库 并 提交 。 

显然 ， 这 个 过 程 中 用 户 Userl 的 修改 更 新 操作 “丢失 ”了 。 这 可 能 会 发 生 一 个 恐怖 的 结 
果 。 设 想 银行 丢失 了 更 新 操作 : 一 个 用 户 账户 中 有 10 000 元 人 民 币 ， 他 用 两 个 网 上 银行 的 
客户 端 转 账 ， 第 一 次 转 9 000 人 民 币 ， 因 为 网 络 和 数据 的 关系 ， 这 时 需要 等 待 。 但 是 如 果 这 
时 用 户 可 以 操作 另 一 个 网 上 银行 客户 端 ， 转 账 1 元 。 如 果 最 终 两 笔 操 作 都 成 功 了 ， 用 户 的 
账号 余 款 是 9 999 人 民 币 ， 第 一 转 的 9 000 人 民 币 并 没有 得 到 更 新 。 也 许 有 人 会 说 ， 不 对 ， 
我 的 网 银 是 绑 定 USB Key 的 ， 不 会 发 生 这 种 情况 一 一 通过 USB Key 登 录 也 许可 以 解决 这 个 
问题 ， 但 是 更 重要 的 是 ， 要 在 数据 库 层 解决 这 个 问题 ， 以 避免 任何 可 能 发 生 丢 失 更 新 的 
情况 。 | 

XGA FW RA, HARRELL AOL DOES REE, ALIA 
作 。 即 在 上 述 四 种 的 第 (1) 种 情况 下 ， 对 用 户 读 取 的 记录 加 上 一 个 排他 锁 ， 同 样 ， 发 生 
第 (2) 种 情况 下 的 操作 时 ， 用 户 也 需要 加 一 个 排他 锁 。 这 种 情况 下 ， 第 (2) 步 就 必须 等 
待 第 (1), (3) 步 完 成 ， 最 后 完成 第 (4) 步 ， 如 以 下 所 示 : 


Time Session A Session B 
| begin; 
] select cash into cash from 
| account where user = pUser for begin; 
| update; select cash into @cash from 
| account where user = pUser for 
| update; 
| update account set cash=@cash- 
| 9000 where user=pUser 
| commit; update account set cash=@cash-1 
| where user=pUser 
V commit; 
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我 发 现 ， 程 序 员 可 能 在 了 解 如 何 使 用 SELECT、INSERT、UPDATE、DELETE 语 名 后 
就 开始 编写 应 用 程序 。 因 此 ， 丢 失 更 新 是 程序 员 最 容易 犯 的 错误 ， 也 是 最 不 易 发 现 的 一 个 
错误 ， 特 别 是 由 于 这 种 现象 只 是 随机 的 、 零 星 的 出 现 ， 但 其 可 能 造成 的 后 果 却 十 分 严重 。 


6.4.2 PÈIS 


理解 脏 读 之 前 ， 需 要 理解 脏 数据 的 概念 。 脏 数据 和 脏 页 有 所 不 同 。 脏 页 指 的 是 在 缓冲 
池 中 已 经 被 修改 的 页 ， 但 是 还 没有 刷新 到 磁盘 ， 即 数据 库 实例 内 存 中 的 页 和 磁盘 的 页 中 的 
数据 是 不 一 致 的 ， 当 然 在 刷新 到 磁盘 之 前 ， 日 志 都 已 经 被 写 信 了 重 做 日 志文 件 中 。 而 所 谓 
脏 数据 ， 是 指 在 缓冲 池 中 被 修改 的 数据 ， 并 且 还 没有 被 提交 (commit), 

对 于 脏 页 的 读 取 ， 是 非常 正常 的 。 脏 页 是 因为 数据 库 实例 内 存 和 磁盘 的 异步 同步 造成 
的 ， 这 并 不 影响 数据 的 一 致 性 。 并 且 因为 是 异步 的 ， 因 此 可 以 带 来 性 能 的 提高 。 而 脏 数据 
却 不同 ， 脏 数据 是 指 未 提交 的 数据 。 如 果 读 到 了 脏 数据 ， 即 一 个 事务 可 以 读 到 另外 一 个 事 
务 中 未 提交 的 数据 ， 则 显然 违反 了 数据 库 的 隔离 性 。 

脏 读 指 的 就 是 在 不 同 的 事务 下 ， 可 以 读 到 另外 事务 未 提交 的 数据 ， 简 单 来 说 ， 就 是 可 
以 读 到 脏 数据 。 比 如 下 面 的 例子 所 示 : | 


Time Session A Session B 
| set @@tx_isolation='read- 
uncommitted’; set @@tx_isolation='read-uncommitted' ; 


| 

| begin; begin; 
| mysql> select * from t; 
| 


十 一 一 一 二 
J a | 
+---+ 
ıl 

| +---+ 


1 row in set (0.00 sec) 





2 rows in set (0.00 sec) 


| insert into t select 2; mysql> select * from t; 
十 -一 一 十 

| lal 

| +---+ 

| | 1 | 

| 1 2 | 

| 十 一 一 一 二 

V 
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表 t 为 我 们 之 前 6.4.1 中 建 的 表 ， 不 同 的 是 在 上 述 例子 中 ， 事 务 的 隔离 级 别 进 行 了 更 换 ， 
由 默认 的 REPEATABLE READ 换 成 了 READ UNCOMMITTED， 因此 在 会 话 A 中 事务 并 没 
有 提交 的 前 提 下 ， 会 话 B 中 两 次 SELECT 操作 取得 了 不 同 的 结果 ， 并 且 这 两 个 记录 是 在 会 
话 A 中 并 未 提交 的 数据 ， 即 产生 了 脏 读 ， 违 反 了 事务 的 隔离 性 。 

脏 读 现象 在 生产 环境 中 并 不 党 发生。 从 上 面 的 例子 中 就 可 以 发 现 ， 脏 读 发 生 的 条 件 是 
需要 事务 的 隔离 级 别 为 READ UNCOMMITTED, ， 而 目前 绝 大 部 分 的 数据 库 都 至 少 设置 成 
READ COMMITTED, 。InnoDB 存 储 引 警 默认 的 事务 隔离 级 别 为 READ REPEATABLE, 
Microsoft SQL Server 数 据 库 为 READ COMMITTED, ，Oracle 数 据 库 同样 也 是 READ 
COMMITTED 。 


6.4.3 不 可 重复 读 


不 可 重复 读 是 指 在 一 个 事务 内 多 次 读 同一 数据 。 在 这 个 事务 还 没有 结束 时 ， 另 外 一 个 
事务 也 访问 该 同一 数据 。 那 么 ， 在 第 一 个 事务 的 两 次 读数 据 之 间 ， 由 于 第 二 个 事务 的 修改 ， 
第 一 个 事务 两 次 读 到 的 数据 可 能 是 不 一 样 的 。 这 样 就 发 生 了 在 一 个 事务 内 两 次 读 到 的 数据 
是 不 一 样 的 ， 因 此 称 为 不 可 重复 读 。 

不 可 重复 读 和 脏 读 的 区 别 是 : 脏 读 是 读 到 未 提交 的 数据 ， 而 不 可 重复 读 读 到 的 确实 是 
已 经 提交 的 数据 ， 但 是 其 违反 了 数据 库 事务 一 致 性 的 要 求 。 可 以 通过 下 面 一 个 例子 来 观察 
不 可 重复 读 的 情况 : 


Time Session A Session B 
| set @@tx isolation='read-committed'; 
set @&tx isolation='read-committed'; 


begin; begin; 

select * from t ; insert into t select 2; 
+---+ 

| a | 

十 一 一 一 十 

+---+ 


1 row in set (0.00 sec) 


+-+ 


| 
| 
| 
| 
| 
| 
| | 11 
| 
| 
| 
| 
| 
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| a | 
+---+ 
| 1 | 
+---+ 


1 row in set (0.00 sec) commit; 


mysql> select * from t; 


+---+ 
| a | 
+---+ 
| 1 | 
| 2 | 
+---+ 


á 一 -一 一 一 一 一 一 一 一 一 一 一 一 


2 rows in set (0.00 sec) 


会 话 A 中 开始 一 个 事务 ， 第 一 次 读 取 到 的 记录 是 1， 另 一 个 会 话 B 中 开始 了 另 一 个 事务 ， 
揪 人 一 条 2 的 记录 。 在 没有 提交 之 前 ， 会 话 A 中 的 事务 再 次 读 取 时 ， 读 到 的 记录 还 是 1， 没 
.有 发 生 脏 读 的 现象 。 但 会 话 2 中 的 事务 提交 后 ， 在 对 会 话 A 中 的 事务 进行 读 取 时 ， 这 时 读 到 
的 是 1 和 2 两 条 记录 。 这 个 例子 的 前 提 是 ， 在 事务 开始 前 ， 会 话 A 和 会 话 B 的 事务 隔离 级 别 
都 调整 为 了 READ COMMITTED,. 

一 般 来 说 ， 不 可 重复 读 的 问题 是 可 以 接受 的 ， 因 为 其 读 到 的 是 已 经 提交 的 数据 ， 本 身 
并 不 会 带 来 很 大 的 问题 。 因 此 ,很 多 数据 库 厂商 (如 Oracle、Microsoft SQL Server) 将 其 
数据 库 事务 的 默认 隔离 级 别 设置 为 READ COMMITTED， 在 这 种 隔离 级 别 下 允许 不 可 重复 

InnoDB 存 储 引擎 中 ， 通 过 使 用 Next-Key Lock 算 法 来 避免 不 可 重复 读 的 问题 。 在 
MySQL 官 方 文档 中 ， 将 不 可 重复 读 定义 为 Phantom Problem， 即 幻象 问题 。 在 Next-Key 
Lock 算 法 下 ， 对 于 索引 的 扫描 ， 不 仅仅 是 锁 住 扫描 到 的 索引 ， 而 且 还 锁 住 这 些 索引 覆盖 的 
范围 (gap)。 因 此 对 于 这 个 范围 内 的 插入 都 是 不 允许 的 。 这 样 就 避免 了 另外 的 事务 在 这 个 
范围 内 插入 数据 导致 的 不 可 重复 读 的 问题 。 因 此 ，InnoDB 存 储 引擎 的 默认 事务 隔离 级 别 是 
READ REPEATABLE， 采 用 Next-Key Lock 算 法 ， 就 避免 了 不 可 重复 读 的 现象 。 


6.5 阻塞 


因为 不 同 锁 之 间 的 兼容 性 关系 ， 所 以 在 有 些 时 刻 ， 一 个 事务 中 的 锁 需 要 等 待 另 一 个 事 
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务 中 的 锁 释 放 它 所 占用 的 资源 。 在 InnoDB 存 储 引擎 的 源 代 码 中 ， 用 Mnutex 数 据 结 构 来 实现 
锁 。 在 访问 资源 前 需要 用 mutex_enter 国 数 进行 申请 ， 在 资源 访问 或 修改 完毕 后 立即 执行 
mutex_exit 国 数 。 当 一 个 资源 已 被 一 个 事务 占有 时 ， 另 一 个 事务 执行 mutex_enter 国 数 会 发 
生 等 待 ， 这 就 是 阻塞 。 阻 塞 并 不 是 一 件 坏事 ， 阻 塞 是 为 了 保证 事务 可 以 并 发 并 且 正 常 运行 。 

在 InnoDB 存 储 引擎 中 ， 参 数 innodb_lock_wait_timeout 用 来 控制 等 待 的 时 间 (默认 是 50 
$^), ，innodb_rollback_on_timeonut 用 来 设 定 是 否 在 等 待 超时 时 对 进行 中 的 事务 进行 回 滚 操 作 
(默认 是 OFF， 代 表 不 回 滚 )。 参 数 innodb_lock_wait_timeout 是 动态 的 ， 可 以 在 MySQL 数 据 
库 运行 时 进行 调整 ， 而 innodb_rollback_on_timeout 是 静态 的 ， 不 可 在 启动 时 进行 修改 ， 如 : 


mysql» set 88innodb lock wait timeout-60; 


Query OK, 0 rows affected (0.00 sec) 


mysql> set 88innodb rollback on timeout-on; 

ERROR 1238 (HY000): Variable 'innodb rollback on timeout' is a read only variable 
当 发 生 超 时 时 ， 数 据 库 会 抛 出 一 个 1205 的 错误 ， 如 : 

mysql» begin; 

Query OK, 0 rows affected (0.00 sec) 


mysql> select * from t where a = 1 for update; 


ERROR 1205 (HY000): Lock wait timeout exceeded; try restarting transaction 


需要 牢记 的 是 ， 默 认 情 况 下 InnoDB 存 储 引擎 不 会 回 滚 超时 引发 的 错误 异常 。 其 实 
InnoDB 存 储 引擎 在 大 部 分 情况 下 都 不 会 对 异常 进行 回 滚 。 如 在 一 个 会 话 中 执行 了 如 下 


IB: 

# 会 话 A 

mysql» select * from t; 
十 一 一 一 十 

| a | 

十 一 一 一 十 

| 11 

| 2 | 

| 4 | 

十 一 一 一 十 


3 rows in set (0.00 sec) 


mysql> begin; 
Query OK, 0 rows affected (0.00 sec) 
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bu 
QN 
* 


mysql» select * from t where a « 4 for update; 


+---+ 
| a | 
十 一 一 一 + 
[1] 
12] 
+---+ 


2 rows in set (0.00 sec) 


会 话 A 中 开启 了 一 个 事务 ，Next-Key Lock 算 法 下 锁定 了 小 于 4 的 所 有 记录 (其 实 也 锁 
定 了 4 这 个 记录 )。 在 另 一 个 会 话 中 执行 如 下 语句 : 

# 会 话 B 

mysql> begin; 

Query OK, 0 rows affected (0.00 sec) 


mysql» insert into t select 5; 
Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql» insert into t select 3; 

ERROR 1205 (HY000): Lock wait timeout exceeded; try restarting transaction 
mysql» select * from t; 

十 一 一 一 二 


5 rows in set (0.00 sec) 


可 以 看 到 ， 在 会 话 B 中 插入 记录 5 是 可 以 的 ， 但 是 插入 记录 3 的 话 ， 因 为 Next-Key Lock 
算法 的 关系 ， 需 要 等 待 会 话 A 中 事务 释放 这 个 资源 ， 因 此 等 待 后 产生 了 超时 。 但 是 在 超时 
后 ， 我 们 再 进行 SELECT 会 发 现 ，5 这 个 记录 并 没有 并 回 滚 。 其 实 这 时 事务 发 生 了 错误 ， 但 
是 既 没 有 commit， 也 没有 rollback， 这 是 十 分 危险 的 ， 用 户 必须 判断 是 需要 commit 还 是 需 
要 rollback， 然 后 再 进行 下 一 步 操作 。 
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如 果 程 序 是 串 行 的 ， 那 么 不 可 能 发 生死 锁 。 死 锁 只 发 生 于 并 发 的 情况 ， 数 据 库 就 是 一 


个 并 发 进行 5 着 的 程序 ， 因此 可 能 会 发 生死 锁 。 在 2.2.1 小 节 中 我 们 已 经 知道 
引擎 有 一 个 


Time 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
V 


在 上 述 操作 中 ， 


，InnoDB 存 储 


后 台 的 锁 监 控 线 程 ， 该 线程 负责 查看 可 能 的 死 锁 问 题 ， 并 自动 告知 用 户 。 下 面 
的 操作 演示 了 死 锁 的 一 种 经 典 的 情况 ， 即 A 等 待 BE BASA: 


Session A 

begin; 

mysql> select * from t where a = 1 
for update; 

十 一 一 一 十 

lal 

十 一 一 一 十 

11 | 

二 一 一 一 二 


1 row in set (0.00 sec) 


. mysql> select * from t where a = 2 


for update; 
(blocking) 


(get the result) 
十 一 一 一 十 
lal 
十 一 一 一 十 
| 2 | 
十 一 一 一 十 


1 row in set (0.00 sec) 


Session B 


begin; 
mysql> select * from t where a = 2 


for update; 


+---+ 
J a | 
+---+ 
| 2 | 
+---+ 


1 row in set (0.00 sec) 


mysql> select * from t where a = 1 
for update; 

ERROR 1213 (40001): Deadlock found 
when trying to get lock; try 


restarting transaction 


会 话 中 的 事务 抛 出 了 1213 这 个 出 错 提示 ， 即 发 生 了 死 锁 。 死 锁 的 原因 
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是 会 话 A 和 B 的 资源 互相 在 等 待 。 大 多 数 的 死 锁 InnoDB 存 储 自己 可 以 侦 测 到 ， 不 需要 人 为 
进行 干预 。 但 是 在 上 面 的 例子 中 ， 会 话 B 中 的 事务 抛 出 死 锁 异 常 后 ， 会 话 A 中 马上 得 到 了 
记录 为 2 的 这 个 资源 ， 这 其 实 是 因为 会 话 B 中 的 事务 发 生 了 回 深 ， 否 则 会 话 A 中 的 事务 是 不 
可 能 得 到 该 资源 的 。 你 还 记得 6.5 节 中 所 说 的 内 容 吗 ? InnoDB 存 储 引擎 并 不 会 回 滚 大 部 分 
的 错误 异常 ， 但 是 死 锁 除外 。 发 现 死 锁 后 ，InnoDB 存 储 引 擎 会 马上 回 滚 一 个 事务 ， 这 点 是 
需要 注意 的 。 如 果 在 应 用 程序 中 捕获 了 1213 这 个 错误 ， 其 实 并 不 需要 对 其 进行 回 滚 。 

Oracle 数 据 库 中 产生 死 锁 的 常见 原因 是 没有 对 外 键 添加 索引 ， 而 InnoDB 存 储 引擎 会 自 
动 对 其 进行 添加 ， 因 此 很 好 地 避免 了 这 种 情况 的 发 生 。 人 为 删除 外 键 上 的 索引 数据 库 会 抛 
出 一 个 异常 : 


mysql> create table p ( a int,primary key(a)); 
Query OK, 0 rows affected (0.00 sec) 


mysql» create table c ( b int,foreign key(b) references p(a))engine-innodb; 
Query OK, 0 rows affected (0.00 sec) 


mysql» show index from c\G; 
fe e e de ee obe dee dee ede eoe dede eoe de he e ede de dn gn Te row e fe e e he ee dee ee eoe e e eee ee e e e de e n x 
Table: c 
Non unique: 
Key name: 
Seq in index: 


Collation: 
Cardinality: 
Sub part: NULL 
Packed: NULL 
Null: YES 
Index type: BTREE 
Comment: 


1 
b 
1 
Column_name: b 
A 
0 


1 row in set (0.00 sec) 


mysql> drop index b on c; 


ERROR 1553 (HY000): Cannot drop index 'b': needed in a foreign key constraint 


可 以 看 到 ， 虽 然 在 建立 子 表 时 指定 了 外 键 ， 但 是 InnoDB 存 储 引 擎 还 是 自动 在 外 键 列 上 
建立 了 一 个 索引 b， 而 人 为 删除 这 个 列 却 是 不 允许 的 。 
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锁 升 级 (Lock Escalation) 是 指 将 当前 锁 的 粒度 降低 。 举 例 来 说 ， 数 据 库 可 以 把 一 个 
表 的 1 000 个 行 锁 升 级 为 一 个 页 锁 ， 或 者 将 页 锁 升 级 为 表 锁 。 如 果 数 据 库 的 设计 中 认为 锁 是 
一 种 稀有 资源 ， 而 且 想 避免 锁 的 开销 ， 那 数据 库 中 会 频繁 出 现 锁 升级 现象 。 

Microsoft SQL Server 数 据 库 的 设计 认为 锁 是 一 种 稀有 的 资源 ， 在 适合 的 时 修 会 自动 地 
将 行 、 键 或 者 分 页 级 锁 升 级 为 更 粗 粒度 的 表 级 锁 。 这 种 升级 保护 了 系统 资源 ， 防 止 系统 使 
用 太 多 的 内 存 来 维护 锁 ， 从 一 定 程度 上 提高 了 效率 。 | 

即使 在 Microsoft SQL Server 2005 的 版 本 之 后 ，SQL Server 数 据 库 支 持 了 行 锁 ， 但 是 其 
设计 和 InnoDB 存 储 引 擎 完全 不 同 ， 在 以 下 情况 下 依然 可 能 发 生 锁 升级 : 

O 由 一 名 单独 的 SQL 语 名 在 一 个 对 象 上 持 有 的 锁 数量 超过 了 阔 值 ， 默 认 的 这 个 阔 值 为 

5000。 值 得 注意 的 是 ， 如 果 是 不 同 对 象 的 话 ， 则 不 会 发 生 锁 升 级 。 

O 锁 资 源 占用 的 内 存 超过 了 激活 内 存 的 40% 时 ， 就 会 发 生 锁 升 级 。 

在 Microsoft SQL Server 数 据 库 中 ， 因 为 锁 是 一 种 稀有 的 资源 ， 因 此 锁 升 级 会 带 来 一 定 
的 效率 提高 。 但 是 锁 升级 带 来 的 一 个 问题 却 是 ， 因 为 锁 粒 度 的 降低 而 导致 并 发 性 能 的 降低 。 

InnoDB 存 储 引 擎 不 存在 锁 升 级 的 问题 。 在 InnoDB 存 储 引擎 中 ，1 个 锁 的 开销 与 1 000 000 
个 锁 是 一 样 的 ， 都 没有 开销 。 这 一 点 和 Oracle 数 据 库 比 较 类 似 。 





6.8 小 结 


这 一 章 介 绍 的 内 容 非 常 多 ， 可 能 会 让 你 觉得 很 难 ， 不 时 地 抓 耳 找 腮 。 尽 管 锁 本 身 相 当 
直接 ， 但 是 它 的 一 些 副作用 却 不 是 这 样 。 关 键 是 你 要 理解 锁 带 来 的 问题 ， 如 丢失 更 新 、 脏 
读 、 不 可 重复 读 等 。 如 果 不 知道 这 一 点 ， 那 么 开发 的 应 用 程序 性 能 就 会 很 差 。 如 果 不 学 会 
怎样 通过 一 些 命令 和 数据 字典 来 查看 谁 锁 住 了 哪些 资源 ， 那 可 能 永远 不 知道 到 底 发 生 了 什 
么 事情 。 你 可 能 只 是 认为 数据 库 有 时 会 阻塞 而 已 。 

本 章 在 介绍 锁 的 同时 ， 还 比较 了 MySQL InnoDB 存 储 引 擎 、MyISAM 存 储 引 擎 、 
Microsoft SQL Server 数 据 库 、Oracle 数 据 库 锁 的 特性 。 通 过 上 面 的 比较 了 解 到 ， 虽 然 每 个 数 
据 库 在 SQL 语句 层面 上 的 差别 可 能 不 是 很 大 ， 但 在 内 部 底层 的 实现 却 各 有 不 同 。 理 解 mnoDB 
存储 引擎 锁 的 特性 ， 对 于 开发 一 个 高 性 能 、 高 并 发 的 数据 库 应 用 显得 十 分 重要 和 有 帮助 。 
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事务 (Transaction) 是 数据 库 区 别 于 文件 系统 的 重要 特性 之 一 。 在 文件 系统 中 ， 如 采 
你 正在 写 文件 ， 但 是 操作 系统 突然 崩 涡 了， 这 个 文件 就 很 有 可 能 被 破坏 。 当 然 ， 有 一 些 机 
制 可 以 把 文件 恢复 到 某 个 时 间 点 。 不 过 ， 如 果 需 要 保证 两 个 文件 同步 ， 这 些 文件 系统 可 能 
就 显得 无 能 为 力 了 。 如 当 你 需要 更 新 两 个 文件 时 ， 更 新 完 一 个 文件 后 ， 在 更 新 完 第 二 个 文 
件 之 前 系统 重启 了 ， 你 就 会 有 两 个 不 同步 的 文件 。 

这 正 是 数据 库 系统 引入 事务 的 主要 目的 : 事务 会 把 数据 库 从 一 种 一 致 状态 转换 为 另 一 
种 一 致 状态 。 在 数据 库 提交 工作 时 ， 可 以 确保 其 要 么 所 有 修改 都 已 经 保存 了 ， 要 么 所 有 修 
改 都 不 保存 。 

InnoDB 存 储 引擎 中 的 事务 完全 符合 ACID 的 特性 。ACID 是 以 下 4 个 词 的 缩写 : 

口 原 子 性 (atomicity) 

O 一 致 性 (consistency) 

O 隔离 性 (isolation) 

口 持久 性 (durability) 

第 6 章 已 介绍 了 锁 ， 讨 论 InnoDB 是 如 何 实现 事务 的 隔离 性 的 。 本 章 主 要 关注 事务 的 原 
子 性 这 一 概念 ， 并 说 明 怎 样 正 确 使 用 事务 以 及 编写 正确 的 事务 应 用 程序 ， 避 免 在 事务 方面 
养 成 一 些 不 好 的 习惯 。 

7.1 事务 概述 

事务 是 数据 库 区 别 于 文件 系统 的 重要 特性 之 一 。 事 务 用 来 保证 数据 库 的 完整 性 一 一 要 
么 都 做 修改 ， 要 么 都 不 做 。 同时， 事务 有 严格 的 定义 ， 它 必须 同时 满足 四 个 特性 。 

口 原子 性 (atomicity) 

原子 性 是 指 整个 数据 库 事 务 是 不 可 分 割 的 工作 单位 。 只 有 使 事务 中 所 有 的 数据 库 操 作 
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执行 都 成 功 ， 才 算 整 个 事务 成 功 。 如 果 事 务 中 任何 一 个 SQL 语句 执行 失败 ， 那 么 已 经 执行 
成 功 的 SQL 语句 也 必须 撤销 ， 数 据 库 状 态 应 该 退回 到 执行 事务 前 的 状态 。 

口 一 致 性 〈consistency ) 

一 致 性 指 事务 将 数据 库 从 一 种 状态 转变 为 下 一 种 一 致 的 状态 。 在 事务 开始 之 前 和 事务 
结束 以 后 ， 数 据 库 的 完整 性 约束 没有 被 破坏 。 

Q 隔离 性 (isolation) 

一 个 事务 的 影响 在 该 事务 提交 前 对 其 他 事务 都 不 可 见 一 这 通过 锁 来 实现 。 

口 持久 性 (durability) 

事务 一 旦 提交 ， 其 结果 就 是 永久 性 的 。 即 使 发 生 宕 机 等 故障 ， 数 据 库 也 能 将 数据 恢复 。 


7.2 事务 的 实现 


隔离 性 由 第 6 章 讲 述 的 锁 得 以 实现 。 原 子 性 、 一 致 性 、 持 久 性 通过 数据 库 的 redo 和 undo 
来 完成 。 


7.2.1 redo 


在 InnoDB 存 储 引 警 中 ， 事 务 日 志 通 过 重 做 (redo) 日 志文 件 和 InnoDB 存 储 引 警 的 日 志 
缓冲 (InnoDB Log Buffer) 来 实现 。 当 开始 一 个 事务 时 ， 会 记录 该 事务 的 一 个 LSN (Log 
Sequence Number， 昌 志 序 列 号 ) ， 当 事务 执行 时 ， 会 往 InnoDB 存 储 引 擎 的 日 志 缓 冲 里 插 
入 事务 日 志 ， 当 事务 提交 时 ， 必 须 将 InnoDB 存 储 引 擎 的 日 志 缓冲 写 人 磁盘 (默认 的 实现 ， 
即 innodb_flush_log_at_trx_commit=1) 。 也 就 是 在 写 数据 前 ， 需 要 先 写 日 志 。 这 种 方式 称 
为 预 写 日 志方 式 (Write-Ahead Logging, WAL), 

InnoDB 存 储 引 获 通 过 预 写 日 志 的 方式 来 保证 事务 的 完整 性 。 这 意味 着 磁盘 上 存储 的 数 
据 页 和 内 存 缓冲 池 中 的 页 是 不 同步 的 ， 对 于 内 存 缓 冲 池 中 页 的 修改 ， 先 是 写 人 重 做 日 志文 
件 ， 然 后 再 写 人 磁盘 ， 因 此 是 一 种 异步 的 方式 。 可 以 通过 命令 SHOW ENGINE INNODB 
STATUS 来 观察 当前 磁盘 和 日 志 的 “差距 ”: 


create table z (a int,primary key(a))engine=innodb; 
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create procedure load test (count int) 
begin 

declare i int unsigned default 0; 
start transaction; 

while i « count do 

insert into z select i; 

set i=i+1; 

end while; 

commit; 


end; 


首先 建立 一 张 表 z， 然 后 建立 一 个 往 表 z 中 导入 数据 的 存储 过 程 10ad_test。 通 过 命令 
SHOW ENGINE INNODB STATUS 观察 当前 的 重 做 日 志 情 况 : 


mysql> show engine innodb status\G; 


"scc t n. 


Log sequence number 11 3047174608 

Log flushed up to 11 3047174608 

Last checkpoint at 11 3047174608 

0 pending log writes, 0 pending chkp writes 
142 log i/o's done, 0.00 log i/o's/second 


1 row in set (0.00 sec) 


Log sequence number 表 示 当 前 的 LSN，Log flushed up to 表示 刷新 到 重 做 日 志文 件 的 
LSN, Last checkpoint at 表示 刷新 到 磁盘 的 LSN。 因 为 当前 没有 任何 操作 ， 所 以 这 三 者 的 
值 是 一 样 的 。 接 着 开始 导入 10 000 条 记录 : 


mysql»call load test(10000); 


mysql> show engine innodb status\G; 


ecco 


Log sequence number 11 3047672789 

Log flushed up to 11 3047672789 

Last checkpoint at 11 3047174608 

0 pending log writes, 0 pending chkp writes 
143 log i/o's done, 0.08 log i/o's/second 
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1 row in set (0.00 sec) 


这 次 SHOW ENGINE INNODB STATUS 的 结果 就 不 同 了 ，Log sequence number 的 LSN 
4113047672789, Log flushed up to 的 LSN 为 113047672789，Last checkpoint at 的 LSN 为 
113047174608， 可 以 把 Log flushed up to 和 Last checkpoint at 的 差 值 498 181 (~486.5K) FE 
解 为 重 做 日 志 产生 的 增 量 (以 字 节 为 单位 )。 

虽然 在 上 面 的 例子 中 ，Log sequence number 和 Log flushed up to 的 值 是 相等 的 ， 但 是 在 
实际 的 生产 环境 中 ， 该 值 有 可 能 是 不 同 的 。 因为 在 一 个 事务 中 从 日 志 缓冲 刷新 到 重 做 日 志 
文件 ， 并 不 只 是 在 事务 提交 时 发 生 ， 每 秒 都 会 有 从 日 志 缓冲 刷新 到 重 做 日 志文 件 的 动作 
(这 部 分 内 容 我 们 在 3.6.2 小 节 已 经 讲解 过 了 ) 。 下 面 是 一 个 生产 环境 下 重 做 日 志 的 信息 : 


mysql» show engine innodb status\G; 


Log sequence number 203318213447 

Log flushed up to 203318213326 

Last checkpoint at 203252831194 

1 pending log writes, 0 pending chkp writes 
103447 log i/o's done, 7.00 log i/o's/second 


1 row in set (0.00 sec) 


可 以 看 到 ， 在 生产 环境 下 Log sequence number, Log flushed up to, Last checkpoint at 
三 个 值 可 能 是 不 同 的 。 


7.2.2 undo 


重 做 日 志 记 录 了 事务 的 行为 ， 可 以 很 好 地 通过 其 进行 “ 重 做 ”。 但 是 事务 有 时 还 需要 
撤销 ， 这 时 就 需要 undo。undo 与 redo 正 好 相反 ， 对 于 数据 库 进 行 修改 时 ， 数 据 库 不 但 会 产 
生 redo， 而 且 还 会 产生 一 定量 的 undo， 即 使 你 执行 的 事务 或 语句 由 于 某 种 原因 失败 了 ， 或 
者 如 果 你 用 一 条 ROLLBACK 语 句 请 求 回 滚 ， 就 可 以 利用 这 些 undo 信 息 将 数据 回 滚 到 修改 
之 前 的 样子 。 与 redo 不 同 的 是 ，redo 存 放 在 重 做 日 志文 件 中 ，undo 存 放 在 数据 库 内 部 的 一 
个 特殊 段 (segment) 中 ， 这 称 为 ndo 段 (undo segment) ，undo 段 位 于 共享 表 空 间 内 。 可 
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以 通过 py_innodb_page_info.py 工 具 ， 来 查看 当前 共享 表 空 间 中 undo 的 数量 : 


{root@xen-server -]# python py innodb page info.py /usr/local/mysql/data/ibdatal 
Total number of page: 46208: 
Insert Buffer Free List: 13093 
Insert Buffer Bitmap: 3 

System Page: 5 

Transaction system Page: 1 
Freshly Allocated Page: 4579 
undo Log Page: 2222 

File Segment inode: 6 

B-tree Node: 26296 

File Space Header: 1 


扩展 描述 页 : 2 


可 以 看 到 ， 当 前 的 共享 表 空 间 ibdatal 内 有 2222 个 undo 页 。 

我 们 通常 对 于 undoO 有 这 样 的 误解 undo 用 于 将 数据 库 物理 地 恢复 到 执行 语句 或 事务 之 
前 样子 一 一 但 事实 并 非 如 此 。 数 据 库 只 是 逻辑 地 恢复 到 原来 的 样子 ， 所 有 修改 都 被 逻辑 地 
取消 ,但 是 数据 结构 本 身 在 回 滚 之 后 可 能 大 不 相同 ， 因 为 在 多 用 户 并 发 系统 中 ， 可 能 会 有 
数 十 、 数 百 甚至 数 千 个 并 发 事务 。 数 据 库 的 主要 任务 就 是 协调 对 于 数据 记录 的 并 发 访问 。 
如 一 个 事务 在 修改 当前 一 个 页 中 某 几 条 记录 ， 但 同时 还 有 别 的 事务 在 对 同一 个 页 中 另 几 条 
记录 进行 修改 。 因 此 ， 不 能 将 一 个 页 回 滚 到 事务 开始 的 样子 ， 因 为 这 样 会 影响 其 他 事务 正 
在 进行 的 工作 。 

例如 : 我 们 的 事务 执行 了 一 个 INSERT 10 万 条 记录 的 SQL 语句 ， 这 条 语句 可 能 会 导致 
分 配 一 个 新 的 段 ， 即 表 空 间 会 增 大 。 如 果 我 们 执行 ROLLBACK 时 ， 会 将 插入 的 事务 进行 
回 滚 ， 但 是 表 空 间 的 大 小 并 不 会 因此 而 收缩 。 因 此 ， 当 InnoDB 存 储 引擎 回 滚 时 ， 它 实际 上 
做 的 是 与 先前 相反 的 工作 。 对 于 每 个 INSERT ，InnoDB 存 储 引擎 会 完成 一 个 DELETE， 对 
于 每 个 DELETE，InnoDB 存 储 引 擎 会 执行 一 个 INSERT， 对 于 每 个 UPDATE，InnoDB 存 储 
引擎 则 会 执行 一 个 相反 的 UPDATE ， 将 修改 前 的 行 放 回去 。 

Oracle 和 Microsoft SQL Server 数 据 库 都 有 内 部 的 数据 字典 来 观察 当前 undo 的 信息 ， 
InnoDB 存 储 引 擎 在 这 方面 做 得 还 是 不 够 的 ， 所 以 DBA 只 能 通过 原理 和 经 验 来 进行 判断 。 
我 写 过 一 个 补丁 (patch) 来 扩展 SHOW ENGINE INNODB STATUS 命令 的 显示 结果 ， 可 
以 用 来 查看 当前 内 存 缓冲 地 中 undo 页 的 数量 ， 如 下 代码 所 示 。 
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mysql> show engine innodb status\G; 

3 e e e dece dee e koc ck ko kockck kockock kckck ko ko kk l. row kkkkkkkkkkkkkkkkkkkk e koe deo € 
Type: InnoDB 
Name: 


Status: 


Per second averages calculated from the last 14 seconds 


Undo Page count: 1. 


1 row in set (0.01 sec) 


可 以 看 到 ， 当 前 内 存 缓冲 中 有 1 个 undo 页 。 接 着 我 们 开局 一 个 事务 ， 执 行 播 和 人 10 万 条 
记录 的 操作 ， 需 要 注意 的 是 ， 这 并 不 进行 提交 操作 


mysql> create table t like order line; 


Query OK, 0 rows affected (0.23 sec) 


mysql» insert into t select * from order line limit 100000; 
Query OK, 100000 rows affected (45.01 sec) 
Records: 100000 Duplicates: 0 Warnings: 0 


之 后 在 另 一 个 会 话 中 执行 命令 SHOW ENGINE INNODB STATUS ， 可 以 看 到 之 前 的 会 
话 产生 的 undo 量 : 


mysql> show engine innodb status\G; 

kkkkkkkkkkkkkkkkkk kkk kkk kkk A row kkkkkkkkkkkkkkkkkkk kkk kc kc k ko 
Type: InnoDB 
Name: 


Status: 


Per second averages calculated from the last 14 seconds 


sese.. 


www.TopSage.com 


1 row in set (12.38 sec) 


可 以 看 到 ， 此 时 undo 页 的 数量 变 成 了 129， 也 就 是 说 ， 刚 才 的 一 个 事务 大 致 产生 了 129 
个 undo 页 。 另 外 ， 即 使 对 INSERT 的 事务 进行 了 提交 ， 我 们 在 一 段 时 间 内 还 是 可 以 看 到 内 
存 中 有 129 个 undo 页 。 这 是 因为 ， 对 于 undo 页 的 回收 是 在 master thread 中 进行 的 ，master 
thread 也 不 是 每 次 回收 所 有 的 undo 页 。 关 于 master thread 的 工作 原理 ， 我 们 在 第 2.3.1 小 节 曾 


介绍 过 。 


7.3 事务 控制 语句 


在 MySQL 命 令 行 的 默认 设置 下 ， 事 务 都 是 自动 提交 的 ， 即 执行 SQL 语句 后 就 会 马上 执 
行 COMMIT 操 作 。 因 此 开始 一 个 事务 ， 必 须 使 用 BEGIN、START TRANSACTION, ， 或 者 
执行 SET AUTOCOMMIT=0， 以 禁用 当前 会 话 的 自动 提交 。 这 和 Microsoft SQL Server 数 据 
库 的 方式 一 致 ， 需 要 显 式 地 开始 一 个 事务 。 而 Oracle 数 据 库 不 需要 专门 的 语句 来 开始 事务 ， 
事务 会 在 修改 数据 的 第 一 条 语句 处 隐 式 地 开始 。 在 具体 介绍 其 含义 之 前 ， 先 来 看 看 我 们 可 
以 使 用 哪些 事务 控制 语句 
口 START TRANSACTION | BEGIN: 显 式 地 开启 一 个 事务 。 
Q COMMIT, 要 想 使 用 这 个 语句 的 最 简 形式 ， 只 需 发 出 COMMIT。 也 可 以 更 详细 一 些 ， 
写 为 COMMIT WORK, ， 不 过 这 二 者 几乎 是 等 价 的 。COMMIT 会 提交 你 的 事务 ， 并 
使 得 已 对 数据 库 做 的 所 有 修改 成 为 永久 性 的 。 

口 ROLLBACK : 要 想 使 用 这 个 语句 的 最 简 形式 ， 只 需 发 出 ROLLBACK。 同 样 ， 你 也 
可 以 写 为 ROLLBACK WORK, 但 是 二 者 几 平 是 等 价 的 。 回 滚 会 结束 你 的 事务 ， 并 
撤销 正在 进行 的 所 有 未 提交 的 修改 。 
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Q SAVEPOINT identifier; SAVEPOINT 人 允许 你 在 事务 中 创建 一 个 保存 点 ， 一 个 事务 中 
可 以 有 多 个 SAVEPOINT。 

Q RELEASE SAVEPOINT identifier: 删除 一 个 事务 的 保存 点 ， 当 没有 一 个 保存 点 执行 
这 名 语句 时 ， 会 抛 出 一 个 异常 。 

口 ROLLBACK TO [SAVEPOINT] identifier; 这 个 语句 与 SAVEPOINT 命 令 一 起 使 用 。 
可 以 把 事务 回 滚 到 标记 点 ， 而 不 回 滚 在 此 标记 点 之 前 的 任何 工作 。 例 如 可 以 发 出 两 
条 UPDATIE 语 句 ， 后 面 跟 一 个 SAVEPOINT ， 然 后 又 是 两 条 DELETE 语 句 。 如 果 执 行 
DELETE 语 名 期间 出 现 了 某 种 异常 情况 ， 而 且 你 捕获 到 这 个 异常 ， 并 发 出 
ROLLBACK TO SAVEPOINT 命 令 ， 事 务 就 会 回 滚 到 指定 的 SAVEPOINT ， 撤 销 
DELETE 完 成 的 所 有 工作 ， 而 UPDATE 语 句 完成 的 工作 不 受 影响 。 

Q SET TRANSACTION; 这 个 语句 用 来 设置 事务 的 隔离 级 别 。InnoDB 存 储 引 擎 提供 
的 事务 隔离 级 别 有 : READ UNCOMMITTED, READ COMMITTED, 
REPEATABLE READ, SERIALIZABLE, 

START TRANSACTION、BEGIN 语 句 都 可 以 在 mysql 命 令 行 下 显 式 地 开启 一 个 事务 。 
但 是 在 存储 过 程 中 ，MySQL 分 析 会 自动 将 BEGIN 识 别 为 BEGIN ... END。 因 此 在 存储 过 程 
中 ， 只 能 使 用 START TRANSACTION 语 句 来 开启 一 个 事务 。 

COMMIT 和 COMMIT WORK 语 句 基本 是 上 一 致 的 ， 都 是 用 来 提交 事务 。 不 同 之 处 在 
于 ，COMMIT WORK 用 来 控制 事务 结束 后 的 行为 ， 是 CHAIN 还 是 RELEASE 的 。 可 以 通过 
参数 completion_type 来 进行 控制 ， 默 认 情 况 下 该 参数 为 0， 表 示 没 有 任何 操作 。 在 这 种 设 
置 下 ，COMMIT 和 COMMIT WORK 是 完全 等 价 的 。 当 参数 completion_type 的 值 为 1 时 ， 
COMMIT WORK 等 同 于 COMMIT AND CHAIN， 表 示 马 上 自动 开启 一 个 相同 隔离 级 别 的 
事务 ， 如 ， 


mysql» create table t ( a int,primary key (a))engine-innodb; 


Query OK, 0 rows affected (0.00 sec) 


mysql> select @@autocommit\G; 


KKEKEKKKKKKKKKEKEKEKEKEKEKKKEKEKEKKKEE 1. row LEXXZEZEREZEREZEZEREEEEEZEREEEJ 
@@autocommit: 1 


1 row in set (0.00 sec) 
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mysql> set @@completion_type=1; 
Query OK, 0 rows affected (0.00 sec) 


mysql> begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql> insert into t select 1; 
Query OK, 1 row affected (0.00 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> commit work; 
Query OK, 0 rows affected (0.01 sec) 


mysql> insert into t select 2; 
Query OK, 1 row affected (0.00 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> insert into t select 2; 
ERROR 1062 (23000): Duplicate entry '2' for key 'PRIMARY' 


mysql» rollback; 
Query OK, 0 rows affected (0.00 sec) 


# 注意 回 滚 之 后 只 有 1 这 个 记录 ， 而 设 有 2 这 个 记录 
mysql» select * from t\G; 


de e e e e e hee e ce dede de dece oe hehe oe oe ee fe x A x E SN row e e ehe ehe e eee he oe ee e hee e e eee e e e Ri 
a: 1 


1 row in set (0.00 sec) 

这 个 实验 中 我 们 将 completion_type 设 置 为 1， 第 一 次 通过 COMMIT WORK 来 插入 1 这 个 
记录 。 之 后 插入 记录 2 时 我 们 并 没有 用 BEGIN (或 者 START TRANSACTION) 来 开启 一 个 
事务 ， 之 后 再 插入 一 条 重复 的 记录 2， 这 时 会 抛 出 异常 。 我 们 执行 ROLLBACK 操 作 ， 最 后 
发 现 只 有 1 这 一 个 记录 ，2 并 没有 被 插入 。 因 为 completion_type 为 1 时 ，COMMIT WORK 会 
自动 开启 一 个 事务 ， 因 此 两 个 INSERT 语 句 是 在 同一 个 事务 内 的 ， 因 此 回 滚 后 就 没有 进行 
插入 。 

参数 completion_type 为 2 时 ，COMMIT WORK 等 同 于 COMMIT AND RELEASE。 当 事 
务 提 交 后 会 自动 断 开 与 服务 器 的 连接 ， 如 : 


mysql» set @@completion_type=2; 
Query OK, 0 rows affected (0.00 sec) 
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mysql» begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql» insert into t select 3; 
Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> commit work; 


Query OK, 0 rows affected (0.01 sec) 


mysql» select @@version\G; 

ERROR 2006 (HY000): MySQL server has gone away 
No connection. Trying to reconnect... 
Connection id: 54 


Current database: test 


kkkkkkkkkkkkkkkkkkkkkkkkkkx*k La row LAXXAXASSEREERERSEEEKREREZEZEREI 
@@version: 5.1.45-log 


1 row in set (0.00 sec) 


通过 上 面 的 实验 可 以 发 现 ， 当 参数 completion_type 设 置 为 2 时 ，COMMIT WORK 后 ， 
我 们 再 执行 select @@version， 会 出 现 ERROR 2006 (HY000) : MySQL server has gone 
away 的 错误 ， 这 其 实 就 是 因为 当前 会 话 已 经 在 上 次 执行 COMMIT WORK 语 句 后 与 服务 器 
断 开 了 连接 。 

ROLLBACK 和 ROLLBACK WORK 与 COMMIT 和 COMMIT WORK 的 工作 一 样 ， 不 再 
His. 

SAVEPOINT 记 录 了 一 个 保存 点 ， 可 以 通过 ROLLBACK TO SAVEPOINT El i$] SER 
存 点 ， 但 是 如 果 回 滚 到 一 个 不 存在 的 保存 点 ， 会 抛 出 异常 : 


mysql» begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql» rollback to savepoint tl; 
ERROR 1305 (42000): SAVEPOINT tl does not exist 


InnoDB 存 储 引擎 中 的 事务 都 是 原子 的 ， 这 说 明 下 述 两 种 情况 : 或 者 构成 事务 的 每 条 语 
句 都 会 提交 (成 为 永久 ) ， 或 者 所 有 语句 都 回 滚 。 这 种 保护 还 延伸 到 单个 的 语句 。 一 条 语 
句 要 么 完全 成 功 ， 要 么 完全 回 滚 (注意 ， 我 说 的 是 语句 回 滚 ) 。 如 果 一 条 语句 失败 ， 并 不 
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会 导致 先前 已 经 执行 的 语句 自动 回 深 。 它 们 的 工作 会 保留 ， 必 须 由 你 来 决定 是 否 对 其 进行 
提交 或 回 滚 操作 。 如 : 


mysql> create table t ( a int,primary key(a))engine=innodb; 


Query OK, 0 rows affected (0.00 sec) 


mysql» begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql» insert into t select 1; 
Query OK, 1 row affected (0.00 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql» insert into t select 1; 


ERROR 1062 (23000): Duplicate entry '1' for key 'PRIMARY' 


mysql> select * from t\G; 
KKKKKKKKrkKKrkKrkKxKxrXXXXXXXKrKrkKrkkrkkrkxkkk 1. row kkkkkkkkkkkkkkkkkkkkkkkkk*kk 
a: 1 


1 row in set (0.00 sec) 


可 以 看 到 ， 插 入 第 二 记录 1 时 ， 因 为 重复 的 关系 抛 出 了 1062 的 错误 ， 但 是 数据 库 并 没 
有 进行 自动 回 滚 ， 这 时 事务 仍 需 要 我 们 显 式 地 运行 COMMIT 或 者 ROLLBACK。 

另 一 个 容易 犯 的 错误 是 ROLLBACK TO SAVEPOINT， 虽 然 有 ROLLBACK， 但 是 它 并 
不 是 真正 地 结束 一 个 事务 ， 因 此 即使 执行 了 ROLLBACK TO SAVEPOINT， 之 后 也 需要 显 
式 地 运行 COMMIT 或 者 ROLLBACK 命 令 。 


mysql> create table t ( a int,primary key(a))engine-innodb; 
Query OK, 0 rows affected (0.00 sec) 


mysql> begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql» insert into t select 1; 
Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql» savepoint tl; 


Query OK, 0 rows affected (0.00 sec) 


mysql» insert into t select 2; 
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Query OK, 1 row affected (0.00 sec) 


Records: 1 Duplicates: 0 Warnings: 0 


mysql> savepoint t2; 
Query OK, 0 rows affected (0.00 sec) 


mysql» release savepoint tl; 
Query OK, 0 rows affected (0.00 sec) 


mysql> insert into t select 2; 
ERROR 1062 (23000): Duplicate entry '2' for key ‘PRIMARY’ 


mysql» rollback to savepoint t2; 
Query OK, 0 rows affected (0.00 sec) 


mysql» select * from t; 


+-+ 
| al 
十 一 一 一 十 
| 1 
| 2 | 
+---+ 


2 rows in set (0.00 sec) 


mysql» rollback; 
Query OK, 0 rows affected (0.00 sec) 


mysql» select * from t; 


Empty set (0.00 sec) 


在 上 面 的 例子 中 可 以 看 到 ， 虽 然 我 们 在 发 生 重复 错误 后 ， 通 过 ROLLBACK TO SAVEPOINT 


{2 命令 回 深 到 了 保存 点 {2， 但 是 事务 此 时 并 没有 结束 ， 我 们 再 接着 运行 ROLLBACK 后 ， 


事务 才 完 整 回 滚 。 
事务 。 


需要 再 次 提醒 的 是 ，ROLLBACK TO SAVEPOINT 命 令 并 不 真正 地 结束 


7.4 隐 式 提交 的 SQL 语句 


以 下 这 些 SQL 语句 会 产生 一 个 隐 式 的 提交 操作 ， 即 执行 完 这 些 语句 后 ， 会 有 一 个 隐 式 


的 COMMIT 操 作 。 
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O DDLiE&J: ALTER DATABASE ... UPGRADE DATA DIRECTORY NAME, ALTER 
EVENT, ALTER PROCEDURE, ALTER TABLE, ALTER VIEW, CREATE 
DATABASE, CREATE EVENT, CREATE INDEX, CREATE PROCEDURE, 
CREATE TABLE, CREATE TRIGGER, CREATE VIEW, DROP DATABASE, 
DROP EVENT, DROP INDEX, DROP PROCEDURE, DROP TABLE, DROP 
TRIGGER, DROP VIEW, RENAME TABLE, TRUNCATE TABLE, 

口 用 来 隐 式 地 修改 mysql 架 构 的 操作 : CREATE USER, DROP USER, GRANT, 
RENAME USER, REVOKE, SET PASSWORD, 

Q 管理 语句 ; ANALYZE TABLE, CACHE INDEX, CHECK TABLE, LOAD INDEX 
INTO CACHE, OPTIMIZE TABLE, REPAIR TABLE, 


注意 ; 我 发 现 Microsoft SQL Server 的 数据 库 管 理 员 或 者 开发 人 员 往 往 忽 视 对 于 
DDL 语 身 的 隐 式 提交 操作 ， 因 为 在 Microsoft SQL Server 数 据 库 中 ， 即 使 是 DDL 也 
是 可 以 回 滚 的 。 这 和 InnoDB 和 存储 引 掌 、Oracle 数 据 库 都 不 同 。 


另外 需要 注意 的 是 ，TRUNCATE TABLE 语 句 是 DDL， 因 此 虽然 和 DELETE 整 张 表 的 
结果 是 一 样 的 ， 但 它 是 不 能 被 回 深 的 (这 又 是 和 Microsoft SQL Server 数 据 不 同 的 地 方 ) : 


mysql> select * from t\G; 


LEXEEZEEEZEEREEEEEEEZEZRREREEEREEI 1. row LEEXZEZEEZEEERZEZZRRRERRRERREEEEEI 
as 1 

IZEZEZZEEERZEZZZEZEZEEEEZERSEZEZEEZEE! Ze row kkk k kk kk kk k ce ce kk kk k kk kk Xx 
a: 2 

2 rows in set (0.00 sec) 


mysql> begin; 
Query OK, 0 rows affected (0.01 sec) 


mysql> truncate table t; 
Query OK, 0 rows affected (0.00 sec) 


mysql> rollback; 
Query OK, 0 rows affected (0.00 sec) 


mysql» select * from t; 
Empty set (0.00 sec) 
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7.5 对 于 事务 操作 的 统计 


因为 InnoDB 存 储 引擎 是 支持 事务 的 ， 因 此 对 于 InnoDB 存 储 引擎 的 应 用 ， 在 考虑 每 秒 
请 求 数 (Question Per Second, QPS) 的 同时 ， 也 许 更 应 该 关注 每 秒 事务 处 理 的 能 力 
(Transaction Per Second, TPS), 

计算 TPS 的 方法 是 (com commit + com rollback) / time。 但 是 用 这 种 方法 计算 的 前 提 
是 : 所 有 的 事务 必须 都 是 显 式 提交 的 ， 如 果 存 在 隐 式 的 提交 和 回 滚 (默认 autocommit=1)， 
不 会 计算 到 com_commit 和 com_rollback 变 量 中 。 如 : 


mysql» show global status like 'com_commit'\G; 


e he e e eee eee e e dee ode eode oe ode hehe dede ode n x x 1. row KKKKKKKKKEKKKKKKKKKKKKKKKEKEE 
Variable name: Com commit 

Value: 5 
1 row in set (0.00 sec) 


mysql» insert into t select 3; 
Query OK, 1 row affected (0.00 sec) 
Records: 1 Duplicates: 0 Warnings: 0 


mysql> select * from t\G; 


de e he e eee dee ode ode de eode de eoe e hee eode ee dede e Te. row e e de e he de e ede eoe eoe eoe oe ee de dee n f x A. Li 
a: 1 
c ce e e e eee eee e ee e ee e e x à A x x x x 2.4 row eode ce e he e e he oe de he ee che he che ee ede he e e e e v A 
a: 2 
de he e de e che eoe he e ee eoe oe ede e he de hehe e e de dn ge de row e he he he de he he hehe he de he de dee TIA TATA AIA TEA 
as 3 


3 rows in set (0.00 sec) 


mysql> show global status like 'com_commit'\G; 


dc e ke he ee eee ehe e e e ce ee e e ke e e | x kx x 1, pr OW ooo eje de eoe e e e e ehe e e e e e e e e e n 


Variable name: Com commit 
Value: 5 


1 row in set (0.00 sec) 


MySQL 另 外 还 有 2 个 参数 handler_commit 和 handler_rollback。 但 是 我 注意 到 ， 这 两 个 
参数 在 MySQL 5.1 中 可 以 很 好 地 用 来 统计 InnoDB 存 储 引 柳 显 式 和 隐 式 的 事务 提交 操作 ， 而 
在 InnoDB Plugin 中 该 参数 的 表现 有 些 “ 怪 异 "， 并 不 能 很 好 地 统计 事务 的 次 数 。 所 以 ， 如 
果 你 的 程序 都 是 显 式 控制 事务 的 提交 和 回 深 ， 那 么 可 以 通过 com_commit 和 com_rollback 进 
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行 统计 。 如 果 不 是 ， 那 么 情况 就 显得 复杂 了 。 


7.6 事务 的 隔离 级 别 


令 人 惊讶 的 是 ， 大 部 分 数据 库 系统 都 没有 提供 真正 的 隔离 性 ， 最 初 或 许 是 因为 系统 实 
现 者 并 没有 真正 理解 这 些 问题 。 如 今 这 些 问题 已 经 弄 清 楚 了 ， 但 是 数据 库 实现 者 在 正确 性 
和 性 能 之 间 做 了 妥协 。ISO 和 ANIS SQL 标准 制定 了 四 种 事务 隔离 级 别 的 标准 ， 但 是 很 少 有 
数据 库 开 发 厂商 遵循 这 些 标准 ， 比 如 Oracle 数 据 库 就 不 支持 read uncommitted 和 repeatable 
read 的 事务 隔离 级 别 。 

SQL 标准 定义 的 四 个 隔离 级 别 为 : 

Q READ UNCOMMITTED 

U READ COMMITTED 

Q REPEATABLE READ 

D SERIALIZABLE 

READ UNCOMMITTED 称 为 浏览 访问 (browse access)， 仅 仅 只 对 事务 而 言 的 。 
READ COMMITTED 称 为 游标 稳定 (cursor Sabin. REPEATABLE READJÉ2.9999" 8] 
隔离 ， 没 有 幻 读 的 保护 。SERIALIZABLE 称 为 隔离 ， 或 3"。SQL 和 SQL 2 标准 的 默认 事务 
隔离 级 别 是 SERIALIZABLE。 

InnoDB 存 储 引 擎 默认 的 支持 隔离 级 别 是 REPEATABLE READ, ， 但 是 与 标准 SQL 不 同 
的 是 ，InnoDB 存 储 引擎 在 REPEATABLE READ 事 务 隔离 级 别 下 ， 使 用 Next-Key Lock 锁 的 
算 兴 ， 因 此 避免 幻 读 的 产生 。 这 与 其 他 数据 库 系统 (如 Microsoft SQL Server 数 据 库 ) 是 不 
同 的 。 所 以 说 ，InnoDB 存 储 引 擎 在 默认 REPEATABLE READ 的 事务 隔离 级 别 下 已 经 能 完 
全 保证 事务 的 隔离 性 要 求 ， 即 达到 SQL 标准 的 SERIALIZABLE 隔 离 级 别 。 

隔离 级 别 越 低 ， 事 务 请 求 的 锁 越 少 ,或 者 保持 锁 的 时 间 就 越 短 。 这 也 是 为 什么 大 多 数 
数据 库 系 统 默认 的 事务 隔离 级 别 是 READ COMMITTED。 

在 InnoDB 存 储 引 区 中， 可 以 使 用 以 下 命令 来 设置 当前 会 话 或 者 全 局 的 事务 隔离 级 别 : 


SET [GLOBAL | SESSTON] TRANSACTION ISOLATION LEVEL 
{ 
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READ UNCOMMITTED 
| READ COMMITTED 
| REPEATABLE READ 
| SERIALIZABLE 

) 


如 果 想 在 MySQL 库 启动 时 就 设置 事务 的 默认 隔离 级 别 ， 那 就 需要 修改 MySQL 的 配置 
文件 ， 在 [Imysqld] 中 添加 如 下 行 : 


[mysqid] 
transaction-isolation - READ-COMMITTED 


查看 当前 会 话 的 事务 隔离 级 别 ， 可 以 使 用 : 


mysql> select @@tx_isolation\G; 


(REZZZZZZZZZZZZZIZIZIZIZILI GURS. "MEZZI ZIZIZIZI LI LI kk kk kk k 
@@tx_isolation: REPEATABLE-READ 


1 row in set (0.01 sec) 


查看 全 局 的 事务 隔离 级 别 ， 可 以 使 用 : 


mysql> select @@global.tx_isolation\G; 


cce ke e kkk kkk e e ke ck ke kk ck kk ko ko kk ko ], row kokckckckckck KKK KKK KKK KKK KKK 
@@global .tx isolation: REPEATABLE-READ 


1 row in set (0.00 sec) 


在 SERIALIABLE 的 事务 隔离 级 别 ，InnoDB 存 储 引 擎 会 对 每 个 SELECT 语句 后 自动 加 
上 LOCK IN SHARE MODE， 即 给 每 个 读 取 操 作 加 一 个 共享 锁 。 因 此 在 这 个 事务 隔离 级 别 
下 ， 读 占用 锁 了 ， 一 致 性 的 非 锁 定 读 不 再 予以 支持 。 因 为 InnoDB 存 储 引擎 在 REPEATABLE 
READ 隔 离 级 别 下 就 可 以 达到 3* 的 隔离 ， 所 以 一 般 不 在 本 地 事务 中 使 用 SERIALIABLE 的 隔 
离 级 别 ，SERIALIABLE 的 事务 隔离 级 别 主 要 用 于 InnoDB 存 储 引擎 的 分 布 式 事务 。 

在 READ COMMITTED 的 事务 隔离 级 别 下 ， 除 了 唯一 性 的 约束 检查 以 及 外 键 约束 的 检 
查 需 要 Gap Lock，InnoDB 存 储 引擎 不 会 使 用 Gap Lock 的 锁 算 法 。 但 是 使 用 这 个 事务 隔离 
级 别 需 要 注意 一 些 问题 。 首 先 ， 在 MySQL 5.1 中 ，READ COMMITTED 事 务 隔离 级 别 默认 
只 能 工作 在 Replication (复制 ) 的 二 进 制 日 志 为 ROW 的 格式 下 。 如 果 二 进 制 日 志 工 作 在 默 
认 的 STATEMENT 下 ， 则 会 指出 如 下 的 错误 : 


mysql> create table a ( b int,primary key(b))engine-innodb; 


Query OK, 0 rows affected (0.01 sec) 
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mysql> set @@tx isolation='read-committed'; 


Query OK, 0 rows affected (0.00 sec) 


mysql» select 88tx isolation\G; 


ecce ce ck ce ke e e ke e e ke e e e xk kk kx kk kk k 1. row ck cc cce ce ecc ee ce ee ce e ce e ce e ee ee e e e à x 


&8tx isolation: REPEATABLE-READ 


1 row in set (0.00 sec) 


mysql» begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql» insert into a select 1; 
ERROR 1598 (HY000): Binary logging not possible. Message: Transaction level 
'READ-COMMITTED' in InnoDB is not safe for binlog mode 'STATEMENT' 


MySQL 5.0 版 本 之 前 不 支持 ROW 格式 的 二 进 制 日 志 时 ， 也 许 有 人 知道 ， 可 以 通过 将 参 
数 innodb_locks_unsafe_for_binlog 设 置 为 1， 来 使 得 可 以 在 二 进 制 日 志 为 STATEMENT 下 使 
用 READ COMMITTED 的 事务 隔离 级 别 : 


mysql> select @@version\G 


ecce ce ce ee e e e e e e KKK kk kk kk k 1, row KEKE KKK EEE 


@@version: 5.0.77-log 


1 row in set (0.00 sec) 


mysql> system cat /etc/my.cnf | grep innodb_locks_unsafe_for_binlog 


innodb_locks_unsafe_for_binlog=1 


mysql> show variables like 'innodb_locks_unsafe_for_binlog'\G; 


deck ck ce ce e e e oe e e ke ek ke e ke xx kx kk kx 1. row KEKE 


Variable name: innodb locks unsafe for binlog 
Value: ON 


1 row in set (0.00 sec) 


mysql» set @@tx isolation-'read-committed'; 


Query OK, 0 rows affected (0.00 sec) 


mysql> begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql» insert into a select 1; 
Query OK, 0 rows affected (0.00 sec) 


mysql» commit; 
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Query OK, 0 rows affected (0.00 sec) 


是 的 ， 的 确 可 以 通过 上 述 办 法 使 得 在 MySQL 5.0 的 版 本 之 前 使 用 READ COMMITED 事 
务 隔离 级 别 。 但 是 就 像 参 数 innodb_locks_unsafe_for_binlog 的 名 称 一 样 ， 它 是 unsafe 的 。 在 
其 些 情况 下 ， 可 能 会 导致 master 和 slave 之 间 数 据 的 不 一 致 。 接 着 我 来 演示 一 种 可 能 导致 不 
同步 的 情况 ， 首 先 来 看 下 表 a 中 的 数据 : 


mysql> select * from a\G; 

e de de cde cde ce ce ce e dede ode ce oce ce ce c c o xk I € T row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
b: 1 

oe ce eode e eode oe eee e eoe e eoe ode eode ES n x 2. row LESERERSEREEREERERERREREEERERSERI 
b: 2 

3e e dede eee echec dece ecce eden x Xx 3. LOW ***KKXKKXKKKKKKKXKKKKKKtxxxxxk 
b: 4 

LESERERERERERZEZRRRSERERERSARSRERERREI 4. LOW **kkkck koc eoe eee ee e e e o x 
b: 5 


4 rows in set (0.00 sec) 


接着 在 master 上 开启 一 个 会 话 A 执 行 如 下 事务 ， 并 且 不 要 提交 


# Session A on master 
mysql> begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql> delete from a where b<=5; 


Query OK, 4 rows affected (0.01 sec) 


alee, femaster LF-BA-TAIAB, IMTMNTES, HAZ: 


# Session B on master 
mysql> begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql> insert into a select 3; 


Query OK, 0 rows affected (0.01 sec) 


mysql> commit; 


Query OK, 0 rows affected (0.00 sec) 


接着 会 话 A 提 交 ， 并 查看 表 a 中 的 数据 : 
# Session A on master 
mysql> commit; 


Query OK, 0 rows affected (0.00 sec) 
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mysql> select * from a\G; 


c ke e ee e he e e ce e e e e ke e e e e de e e kx e kx x kx 1, row KEKE ke oe e ee e e e e e e e e e e e e e e de e 


b: 3 


但 是 在 slave 上 看 到 的 结果 却 是 : 


# Slave 
mysql> select * from a; 
Empty set (0.00 sec) 


可 以 看 到 ， 数 据 产生 了 不 一 致 。 导 致 这 个 问题 发 生 的 原因 有 两 点 : 首先 ， 在 READ 
-COMMITTED 事 务 隔 离 级 别 下 ， 事 务 是 没有 Gap Lock 锁 的 ， 因 此 我 们 可 以 在 小 于 等 于 5 的 
范围 内 再 插入 一 条 记录 ， 其 次 ，statement 记 录 的 是 master 上 产生 的 SQL 语句 ， 因 此 在 
master 上 是 先 删 后 插 ， 但 是 在 STATEMENT 格 式 中 记录 的 却 是 先 插 后 删 ， 逻 辑 上 就 产生 了 
不 一 致 。 因 此 ， 使 用 READ REPEATABLE 事 务 隔离 级 别 就 可 以 避免 第 一 种 情况 的 发 生 ， 
而 也 就 避免 了 master 和 slave 不 一 致 问题 的 产生 。 

在 MySQL 5.1 的 版 本 之 后 ， 因 为 支持 了 ROW 格式 的 二 进 制 日 志 记录 格式 ， 所 以 避免 了 
第 二 种 情况 的 发 生 ， 因 此 可 以 放心 使 用 READ COMMITTED 的 事务 隔离 级 别 。 即 使 不 使 用 
READ COMMITTED 的 事务 隔离 级 别 ， 也 应 该 考虑 将 二 进 制 日 志 的 格式 更 换 成 ROW， 因 
为 这 个 格式 记录 的 是 行 的 变更 ， 而 不 是 简单 的 SQL 语句 ， 因 此 可 以 避免 一 些 不 同步 现象 的 
产生 。Heikki Tuuri 也 在 http://bugs.mysql.com/bug.php?id=33210 这 个 帖子 中 建议 使 用 ROW 
格式 的 二 进 制 日 志 。 


7.7 分 布 式 事务 


InnoDB 存 储 引 擎 支持 XA 事务 ， 通 过 XA 事务 可 以 来 支持 分 布 式 事务 的 实现 。 分 布 式 事 
务 指 的 是 允许 多 个 独立 的 事务 资源 (transactional resources) 参与 一 个 全 局 的 事务 中 。 事 
务 资源 通常 是 关系 型 数据 库 系 统 ， 但 也 可 以 是 其 他 类 型 的 资源 。 全 局 事务 要 求 在 其 中 所 有 
参与 的 事务 要 么 都 提交 、 要 么 都 回 深 ， 这 对 于 事务 原 有 的 ACID 要 求 又 有 了 提高 。 另 外 ， 
在 使 用 分 布 式 事务 时 ，InnoDB 存 储 引 擎 的 事务 隔离 级 别 必须 设置 为 SERIALIABLE。 

XA 事务 允许 不 同 数据 库 之 间 的 分 布 式 事务 ， 如 : 一 台 服 务 器 是 MySQL 数 据 库 的 ， 另 
一 台 是 Oracle 数 据 库 的 ， 又 可 能 还 有 一 台 服 务 器 是 SQL Server 数 据 库 的 ， 只 要 参与 全 局 事 
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务 中 的 每 个 节点 都 支持 XA 事务 。 分 布 式 事务 可 能 在 银行 系统 的 转账 中 比较 常见 ， 如 一 个 
用 户 需 要 从 上 海 转 10 000 元 到 北京 的 一 个 用 户 上 : 


# Bank8Shanghai: 


update account set money = money - 10000 where user-'David'; 


# BankéBeijing 
Update account set money = money + 10000 where user-'Mariah'; 


这 种 情况 一 定 需要 分 布 式 的 事务 ， 如 果 不 能 都 提交 或 都 回 滚 ， 在 任何 一 个 节点 出 现 问 
题 都 会 导致 严重 的 结果 : 要 么 是 David 的 账户 被 扣 款 ， 但 是 Mariah 没 收 到 ， 又 或 者 是 David 
的 账户 没有 扣 款 ， 但 是 Mariah 还 是 收 到 钱 了 。 

分 布 式 事务 由 一 个 或 者 多 个 资源 管理 器 (Resource Managers) 、 一 个 事务 管理 器 
(Transaction Manager) 以 及 一 个 应 用 程序 (Application Program) 组 成 。 

口 资源 管理 器 : 提供 访问 事务 资源 的 方法 。 通 常 一 个 数据 库 就 是 一 个 资源 管理 器 。 

口 事 务 管理 器 , 协调 参与 全 局 事务 中 的 各 个 事务 。 需 要 和 参与 全 局 事务 中 的 所 有 资源 

管理 器 进行 通信 。 

口 应 用 程序 : 定义 事务 的 边界 ， 指 定 全 局 事务 中 的 操作 。 

在 MySQL 的 分 布 式 事务 中 ， 资 源 管理 器 就 是 MySQL 数 据 库 ， 事 务 管理 器 为 连接 到 
MySQL 服 务 器 的 客户 端 。 图 7-1 显 示 了 一 个 分 布 式 事务 的 模型 ; 





nigi Programa P) 






INSERT, UPDTE, 
DELETE, SELECT 








Transaction Manager ‘ 





Two-Phase Commit 


图 7-1 分 布 式 事务 模型 


分 布 式 事务 使 用 两 段 式 提交 (two-phase commit) 的 方式 。 在 第 一 个 阶段 ， 所 有 参与 
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全 局 事务 的 节点 都 开始 准备 PREPARE)， 告 诉 事务 管理 器 它们 准备 好 提交 了 。 第 二 个 阶 
段 ， 事 务 管理 器 告诉 资源 管理 器 执行 ROLLBACK 还 是 COMMIT。 如 果 任 何 一 个 节点 显示 
不 能 提交 ， 则 所 有 的 节点 都 被 告知 需要 回 滚 。 

当前 Java 的 JTA (Java Transaction API) 可 以 很 好 地 支持 MySQL 的 分 布 式 事务 ， 需 要 
使 用 分 布 式 事务 应 该 认真 参考 其 API。 下 面 的 一 个 示例 显示 了 如 何 使 用 JTA 来 调用 MySQL 
的 分 布 式 事务 ， 例 子 就 是 前 面 的 银行 转账 d BIA. 


import java.sql.Connection; 

import javax.sql.XAConnection; 

import javax.transaction.xa.*; 

import com.mysql.jdbc.jdbc2.optional.MysqlXADataSource; 


import java.sql.*; 


class MyXid implements Xid 


1 
public int formatId; 
public byte gtrid[]; 
public byte bqual[]; 


public MyXid(){ 


public MyXid(int formatId, byte gtrid[], byte bqual[]) 


1 
this.formatId = formatId; 
this.gtrid = gtrid; 
this.bqual = bqual; 

} 


public int getFormatId() 


return formatId; 


public byte[] getBranchQualifier() 


return bqual; 


public byte[] getGlobalTransactionId() 
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return gtrid; 


public class xa demo ( 


public static MysqlXADataSource GetDataSource( 


String connString, 
String user, 


String passwd)( 


try{ 
MysqlXADataSource ds = 
ds.setUrl(connString); 
ds.setUser (user); 
ds.setPassword (passwd) 
return ds; 

} 


catch(Exception e) { 


System.out.println(e.toString()); 


return null; 


public static void main(String[] args) ( 


String connStringl - 


"jdbc:mysq1://192.168.24.43:3306/bank shanghai"; 


String connString2 - 


"jdbc:mysq1://192.168.24.166:3306/bank beijing"; 


try { 
MysqlXADataSource dsl 
GetDataSource(connStringl,"peter"," 12345") 
MysqlXADataSource ds2 
GetDataSource(connString2,"david","12345"); 


XAConnection xaConnl - 


XAResource xaResl - xaConnl.getXAResource(); 
Connection connl = xaConnl.getConnection(); 


Statement stmtl = connl.createStatement(); 


XAConnection xaConn2 - 


XAResource xaRes2 = xaConn2.getXAResource(); 
Connection conn2 - xaConn2.getConnection(); 


Statement stmt2 - conn2.createStatement(); 
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new MysqlXADataSource(); 


dsl.getXAConnection(); 


ds2.getXAConnection(); 
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Xid xidl = new MyXid( 
100, 
new byte[](0x01), 
new byte[](0x02)); 
Xid xid2 = new MyXid( 
100, 
new byte[](0x11), 
new byte[](0x12)); 
try( 
xaResl.start(xidl,XAResource.TMNOFLAGS); 
stmtl.execute(" 
update account set money - money-10000 
where user='david'" 
uH 
xaResl.end(xidl,XAResource.TMSUCCESS); 


xaRes2.start(xid2,XAResource.TMNOFLAGS); 
stmt2.execute(" 
update account set money = money+10000 
where user-'mariah'" 
); 
xaRes2.end(xid2,XAResource.TMSUCCESS); 


int ret2 xaRes2.prepare(xid2); 


int retl = xaResl.prepare(xid1); 


if ( retl -- XAResource.XA OK && ret2 -- 

XAResource.XA OK )( 
"xaResl.commit(xidl,false); 
xaRes2.commit(xid2,false); 


} 
}catch(Exception e) { 


e.printStackTrace(); 


) catch (Exception e) { 
System.out.println(e.toString()); 


参数 innodb_support_xa 可 以 查看 是 否 启用 了 XA 事 务 支持 (RUAON): 


mysql» show variables like 'innodb support xa' AG; 
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HR KKK KEK KEKE KEKE e e e e e e e kx x 1, COW FERRER e e e ke e e e e e e he e e e e e e EERE 
Variable name: innodb support xa 

Value: ON 
1 row in set (0.01 sec) 


另外 需要 注意 的 是 ， 对 于 XA 事 务 的 支持 ， 是 在 MySQL 体 系 结构 的 存储 引 警 层 。 因 此 
即使 不 参与 外 部 的 XA 事务 ，MySQL 内 部 不 同 存储 引擎 层 也 会 使 用 XA 事务 。 假 设 我 们 用 
START TRANSACTIONS È 了 一 个 本 地 的 事务 ， 往 NDB cluster 存储 引擎 的 表 t1 插 入 一 条 
记录 ， 往 InnoDB 存 储 引 擎 的 表 包 插入 一 条 记录 ， 然 后 COMMIT。 在 MySQL 内 部 ， 也 是 通 
过 XA 事 务 来 协调 的 ， 这 样 才 可 以 保证 两 张 表 的 原子 性 。 


7.8 不 好 的 事务 习惯 


7.8.1 在 循环 中 提交 


我 发 现 ， 开 发 人 员 非 常 喜 欢 在 循环 中 进行 事务 的 提交 ， 下 面 是 他 们 可 能 常 写 的 一 个 存 
储 过 程 : 

CREATE PROCEDURE loadi(count int unsigned) 

begin 

declare s int unsigned default 1; 

declare c char(80) default repeat('a',80); 

while s <= count do 

insert into tl select NULL,c; 

commit; 

set s = s*1; 

end while; 

end; 


其 实 ， 在 这 个 例子 中 ， 是 否 加 上 commit 并 不 关键 ， 因 为 InnoDB 存 储 引 警 默认 为 自动 
提交 ， 因 此 上 面 的 存储 过 程 中 去 掉 commit， 结 果 是 完全 一 样 的 。 这 也 是 另 一 种 容易 忽视 
的 问题 : 

CREATE PROCEDURE load2(count int unsigned) 

begin 

declare s int unsigned default 1; 

declare c char(80) default repeat('a',80); 

while s <= count do 

insert into tl select NULL,c; 
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set s = stl; 
end while; 


end; 


不 论 上 面 哪个 存储 过 程 都 存在 一 个 问题 ， 当 发 生 错 误 时 ， 数 据 库 会 停留 在 一 个 未 知 的 
位 置 。 如 我 们 要 插入 的 是 10 000 条 记录 ， 但 是 在 插入 5000 条 时 ， 发 生 了 错误 ， 而 这 时 前 
5000 条 记录 已 经 存放 在 数据 库 中 ， 那 我 们 应 该 怎么 处 理 呢 ? 还 有 一 个 问题 是 性 能 问题 ， 上 

面 两 个 存储 过 程 都 不 会 比 在 下 面 的 一 个 存储 过 程 快 ， 因 为 它 是 放 在 一 个 事务 里 : 


CREATE PROCEDURE load3(count int unsigned) 
begin 

declare s int unsigned default 1; 

declare c char(80) default repeat('a',80); 
start transaction; 

while s «- count do 

insert into tl select NULL,c; 

set s = stl; 

end while; 

commit; 


end; 


比较 这 3 个 存储 过 程 的 执行 时 间 : 


mysql> call load1(10000); 
Query OK, 0 rows affected (1 min 3.15 sec) 


mysql> truncate table t1; 
Query OK, 0 rows affected (0.05 sec) 


mysql> call load2(10000); 
Query OK, 1 row affected (1 min 1.69 sec) 


mysql> truncate table tl; 
Query OK, 0 rows affected (0.05 sec) 


mysql> call load3(10000); 
Query OK, 0 rows affected (0.63 sec) 


显然 ， 第 三 种 方法 要 快 得 多 ! 这 是 因为 ， 每 一 次 提交 都 要 写 一 次 重 做 日 志 ， 因 此 存储 过 
程 1oad1 和 load2 实 际 写 了 10 000 次 ， 而 对 于 存储 过 程 load3 来 说 ， 实 际 只 写 了 1 次 。 可 以 对 第 二 
个 存储 过 d 程 load2 的 调用 进 和 了 调整 ， 同 样 可 以 达到 存储 过 程 10ad3 的 性 能 ， 如 下 代码 所 示 。 
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mysql> begin; 
Query OK, 0 rows affected (0.00 sec) 


mysql> call load2(10000); 
Query OK, 1 row affected (0.56 sec) 


mysql> commit; 


Query OK, 0 rows affected (0.03 sec) 


大 多 数 程序 员 会 使 用 第 一 种 或 者 第 二 种 方法 ， 有 人 可 能 不 知道 InnoDB 存 储 引 警 自动 提 
交 的 情况 ， 另 外 有 些 人 可 能 持 有 以 下 两 种 观点 : 首先 ， 在 他 们 曾经 使 用 过 的 数据 库 中 ， 对 
于 事务 的 要 求 总 是 尽快 地 进行 释放 ， 不 能 有 长 时 间 的 事务 ， 其次， 他 们 可 能 担心 存在 
Oracle 数 据 库 中 由 于 没有 是 够 UNDO 产 生 的 Snapshot Too Old 的 经 典 问题 。MySQL InnoDB 
存储 引擎 上 述 两 个 问题 都 没有 ， 因 此 程序 员 不 论 从 何 种 角度 出 发 ， 都 不 应 该 在 一 个 循环 中 
反复 进行 提交 操作 ， 不 论 是 显 式 的 提交 还 是 隐 式 的 提交 。 


7.8.2 使 用 自动 提交 


自动 提交 并 不 是 好 习惯 ， 因 为 这 对 于 初级 DBA 容 易 犯错 ， 另 外 对 于 一 些 开发 人 员 可 能 
产生 错误 的 理解 ， 如 我 们 在 前 一 小 节 中 提 到 的 循环 提交 问题 。MySQL 数 据 库 默认 设置 使 用 
自动 提交 (autocommit), 。 可 以 使 用 如 下 语句 来 改变 当前 自动 提交 的 方式 : 


mysql> set autocommit=0; 


Query OK, 0 rows affected (0.00 sec) 


也 可 以 使 用 START TRANSACTION、BEGIN 来 显 式 地 开启 一 个 事务 。 显 式 开启 事务 后 ， 
在 默认 设置 下 ( 即 参 数 completion_type 等 于 0)，MySQL 会 自动 执行 SET AUTOCOMMIT= 
0 的 命令 ， 并 在 COMMIT 或 者 ROLLBACK 结 束 一 个 事务 后 执行 SET AUTOCOMMIT=1, 

另外 ， 在 不 同 的 语言 API 时 ， 自 动 提交 是 不 同 的 。MySQL C API 上 默认 的 提交 方式 是 自 
动 提交 的 ， 而 MySQL Python API 则 是 自动 执行 SET AUTOCOMMIT=0， 以 禁用 自动 提交 。 
因此 在 选用 不 同 的 语言 来 编写 数据 库 应 用 程序 前 ， 应 该 对 连接 MySQL 的 API 做 好 研究 。 

我 认为 ， 在 编写 应 用 程序 开发 时 ， 最 好 把 事务 的 控制 权限 交 给 开发 人 员 ， 即 在 程序 端 
进行 事务 的 开始 和 结束 。 同 时 ， 开 发 人 员 必 须 了 解 自动 提交 可 能 带 来 的 问题 。 我 曾经 见 过 
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很 多 开发 人 员 没有 意识 到 自动 提交 这 个 特性 ， 等 到 出 现 错误 时 应 用 遇 到 了 大 麻烦 。 


7.8.3 使 用 自动 回 滚 


InnoDB 存 储 引擎 支持 通过 定义 一 个 HANDLER 来 进行 自动 事务 的 回 滚 操作 ， 如 一 个 存 
储 过 程 中 发 生 了 错误 ， 会 自动 对 其 进行 回 浴 操 作 ， 因 此 很 多 开发 人 员 喜 欢 在 应 用 程序 的 存 
储 过 程 中 使 用 自动 回 凌 操作 ， 如 下 面 的 一 个 存储 过 程 : 


create procedure sp auto rollback demo () 
begin 

declare exit handler for sqlexception rollback; 
start transaction; 

insert into b select 1; 

insert into b select 2; 
insert into b select 1; 
insert into b select 3; 
commit; 


end; 


存储 过 程 sp_auto_rollback_demo 首 先 定义 了 一 个 exit 类 型 的 handler， 当 捕获 到 错误 时 
进行 回 滚 。 结 构 如 下 所 示 : 
mysql» show create table b\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkkk k row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
Table: b 

Create Table: CREATE TABLE 'b' ( 

‘a’ int(11) NOT NULL DEFAULT '0', 

PRIMARY KEY ('a!) 
) ENGINE-InnoDB DEFAULT CHARSET-latinl 


1 row in set (0.00 sec) 


因此 插入 第 二 个 记录 1 时 会 发 生 错误 ， 但 是 因为 启用 了 自动 回 滚 的 操作 ， 因 此 这 个 存 
储 过 程 的 执行 结果 如 下 所 示 : 


mysql» call sp auto rollback demo; 
Query OK, 0 rows affected (0.06 sec) 


mysql> select * from b; 


Empty set (0.00 sec) 


看 起 来 运行 没有 问题 ， 非 常 正常 。 但 是 ， 执 行 sp_auto_rollback_demo 这 个 存储 过 程 的 
结果 到 底 是 正确 的 还 是 错误 的 呢 ? 对 于 同样 的 存储 过 程 sp_auto_rollback_demo， 开 发 人 员 
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可 能 会 进行 这 样 的 处 理 : 
create procedure sp auto rollback demo () 
begin 
declare exit handler for sqlexception begin rollback; select -1; end; 
Start transaction; 
insert into b select 1; 


insert into select 2; 


b 
insert into b select 1; 
b 


insert into select 3; 


commit; 
select 1; 


end; 
当 发 生 错误 时 ， 先 回 滚 ， 然 后 返回 -1， 表 示 运 行 有 错误 。 运 行 正常 ， 返 回 值 1。 因 此 
这 次 运行 的 结果 就 会 变 成 : 


mysql» call sp auto rollback demo ()\G; 


kkkkkkkkkkkkkkkkkkkkkkkkkkk 1. row kkkkkkkkkkkkkkkkkkkkkkkkkkk 
-1: -1 


1 row in set (0.04 sec) 


mysql> select * from b; 
Empty set (0.00 sec) 


看 起 来 我 们 可 以 得 到 运行 是 否 准确 的 信息 。 但 问题 还 没有 最 终 解 决 ， 对 于 开发 来 说 ， 
重要 的 不 仅 是 知道 发 生 了 错误 ， 而 是 发 生 了 什么 样 的 错误 。 因 此 自动 回 滚存 在 这 样 的 一 个 
问题 。 

我 知道 ， 使 用 自动 回 滚 大 多 是 以 前 使 用 Microsoft SQL Server 数 据 库 。 在 Microsoft SQL 
Server 数 据 库 中 ， 可 以 使 用 SET XABORT ON 来 回 滚 一 个 事务 。 但 是 Microsoft SQL Server 
数据 库 不 仅 会 自动 回 滚 当前 的 事务 ， 并 且 还 :会 抛 出 异常 ， 开发 人 员 可 以 捕获 到 这 个 异常 。 
因此 ，Microsoft SQL Server 数 据 库 和 和 MySQL 数据库 在 这 方面 是 有 所 不 同 的 。 

就 像 之 前 小 节 中 所 讲 到 的 ， 对 于 事务 的 BEGIN、COMMIT 和 ROLLBACK 操 作 ， 应 该 
交 给 程序 端 来 完成 ， 存 储 过 程 只 要 完成 一 个 逻辑 的 操作 。 下 面 演 示 用 Python 语言 编写 的 程 
序 调用 一 个 存储 过 程 sp_rollback_demo， 存 储 过 程 sp_rollback_demo 和 之 前 的 存储 过 
sp_auto_rollback_demo 在 逻辑 上 完成 的 内 容 大 致 相同 : 


create procedure sp_rollback demo () 
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begin 

insert into b select 1; 
insert into b select 2; 
insert into b select 1; 
insert into b select 3; 
end; 


和 sp_auto_rollback_demo 存 储 过 程 不 同 的 是 ， 在 sp_rollback_demo 存 储 过 程 中 去 掉 了 对 
于 事务 的 控制 语句 ， 将 这 些 操作 都 交 由 程序 来 完成 。 接 着 来 看 test_demo.py 的 程序 源 代 码 : 


#1 /usr/bin/env python 
fencoding-utf-8 


import MySQLdb 


try: 
conn = MySQLdb.connect(host="192.168.8.7",user="root",passwd="xx “,db="test") 
cur = conn.cursor() 
cur.execute("set autocommit=0") 
cur.execute("call sp rollback demo") 
cur.execute("commit") 
except Exception,e: 
cur.execute("rollback") 
print e 


观察 运行 test_demo.py 这 个 程序 的 结果 : 


[rooténineyou0-43 -]# python test demo.py 
starting rollback 
(1062, "Duplicate entry '1' for key 'PRIMARY'") 


在 程序 中 控制 事务 的 好 处 是 ， 我 们 可 以 得 知 发 生 错误 的 原因 。 如 上 述 这 个 例子 中 ， 我 
们 知道 是 因为 发 生 了 1062 这 个 错误 ， 错 误 的 提示 内 容 是 Duplicate entry '1' for key 
'PRIMARY'， 即 发 生 了 主键 重复 的 错误 ， 然 后 可 以 根据 发 生 的 原因 来 调试 我 们 的 程序 。 


7.9 小 结 


在 这 一 章 中 ， 我 们 了 解 了 InnoDB 存 储 引 警 管理 事务 的 许多 方面 。 了 解 事务 如 何 工 作 以 
及 如 何 使 用 事务 ， 这 在 任何 数据 库 中 对 于 正确 实现 应 用 都 是 必要 的 。 此 外 ， 事 务 是 数据 库 
区 别 于 文件 系统 的 一 个 关键 特性 。 
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事务 必须 遵循 ACID 特性 ， 即 Atomic (AFP), Consistency (一 致 性 )、Isolation (BR 
离 性 ) 和 Durability (持久 性 )。 隔 离 性 通过 第 6 章 介绍 过 的 锁 来 完成 ， 原子 性 、 一 致 性 、 隔 
离 性 通过 redo 和 undo 来 完成 。 通 过 对 于 redo 和 undo 的 了 解 ， 可 以 进一步 明白 事务 的 工作 原 
理 以 及 更 好 地 使 用 事务 。 接 着 我 们 讲 到 了 InnoDB 存 储 引擎 支持 的 四 个 事务 隔离 级 别 ， 知 道 
了 InnoDB 存 储 引擎 的 软 认 事务 隔离 级 别 是 REPEATABLE READ 的 。 不 同 于 SQL 标准 对 于 
事务 隔离 级 别 的 要 求 ，InnoDB 存 储 引 擎 在 REPEAIABLE READ 隔 离 级 别 下 就 可 以 达到 3” 
的 隔离 要 求 。 

本 章 最 后 讲解 了 操作 事务 的 SQL 语句 以 及 怎样 在 应 用 程序 中 正确 使 用 事务 。 在 默认 配 
置 下 ，MySQL 数 据 库 总 是 自动 提交 的 一 一 如 果 不 知道 这 点 ， 可 能 会 带 来 非常 不 好 的 结果 。 
此 外 ,在 应 用 程序 中 ， 最 好 的 做 法 是 把 事务 的 START TRANSACTION, COMMIT, 
ROLLBACK 操 作 交 给 程序 端 来 完成 ， 而 不 是 在 存储 过 程 内 完成 。 在 完整 了 解 了 InnoDB 存 
储 引 警 事务 机 制 后 ， 相 信 你 可 以 开发 出 一 个 很 好 的 企业 级 MySQL InnoDB 数 据 库 应 用 了 。 
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对 于 DBA 来 说 ， 最 基本 的 工作 就 是 数据 库 的 备份 与 恢复 ， 在 意外 情况 下 (如 服务 器 宕 
机 、 磁 盘 损坏 等 ) 要 保证 数据 不 丢失 ， 或 者 是 最 小 程度 地 丢失 。 每 个 DBA 应 该 每 时 每 刻 都 
关心 自己 所 负责 的 数据 库 的 备份 情况 。 

本 章 主要 介绍 对 InnoDB 存 储 引擎 的 备份 ，MySQL 数 据 库 提供 的 大 多 数 工 具 (如 
mysqldump, ibbackup, replication) 都 能 很 好 地 完成 备份 的 工作 ， 当 然 也 可 以 通过 第 三 方 
的 一 些 工具 来 完成 ， 如 xtrabackup、LVM 快 照 备份 等 。DBA 应 该 根据 自己 的 业务 要 求 设计 
出 损失 最 小 、 对 数据 库 影响 最 小 的 备份 策略 。 


8.1 备份 与 恢复 概述 


根据 备份 的 方法 可 以 分 为 : 

O Hot Backup ( 热 备 ) 

Q Cold Backup ( 冷 备 ) 

CQ) Warm Backup ( 温 备 ) 

Hot Backup 是 指 在 数据 库 运行 中 直接 备份 ， 对 正在 运行 的 数据 库 没有 任何 影响 。 这 种 
方式 在 MySQL 官 方 手册 中 称 为 Online Backup (FER). Cold Backup 是 指 在 数据 库 停 
止 的 情况 下 进行 备份 ， 这 种 备份 最 为 简单 ， 一 般 只 需要 拷贝 相关 的 数据 库 物理 文件 即 可 。 
这 种 方式 在 MySQL 官 方 手册 中 称 为 Offline Backup (离线 备份 )。Warm Backup 备 份 同样 是 
在 数据 库 运 行 时 进行 ， 但 是 会 对 当前 数据 库 的 操作 有 所 影响 ， 例 如 加 一 个 全 局 读 锁 以 保证 
备份 数据 的 一 致 性 。 

如 果 按 照 备 份 后 文件 的 内 容 ， 又 可 以 分 为 : 

口 逻辑 备份 

口 裸 文件 备份 
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在 MySQL 数 据 库 中 ， 逻 辑 备份 是 指 备份 后 的 文件 内 容 是 可 读 的 ， 通 常 是 文本 文件 ， 内 
容 一 般 是 SQL 语句 ， 或 者 是 表 内 的 实际 数据 ， 如 mysqldump 和 SELECT * INTO OUTFILE 
的 方法 。 这 类 方法 的 好 处 是 可 以 看 到 导出 文件 的 内 容 ， 一 般 适 用 于 数据 库 的 升级 、 迁 移 等 
工作 ， 但 是 恢复 所 需要 的 时 间 往往 较 长 。 

裸 文件 备份 是 指 拷贝 数据 库 的 物理 文件 ， 数 据 库 既 可 以 处 于 运行 状态 (如 ibbackup、 
xtrabackup 这 类 工具 ) ， 也 可 以 处 于 停止 状态 。 这 类 备份 的 恢复 时 间 往往 较 逻 辑 备份 短 很 多 。 

若 按照 备份 数据 库 的 内 容 来 分 ， 又 可 以 分 为 ; 

口 完全 备份 

口 增 量 备份 

口 日 志 备份 

完全 备份 是 指 对 数据 库 进行 一 个 完整 的 备份 。 增 量 备份 是 指 在 上 次 的 完全 备份 基础 上 ， 
对 更 新 的 数据 进行 备份 。 日 志 备份 主要 是 指 对 MySQL 数 据 库 二 进 制 日 志 的 备份 ， 通 过 对 一 
个 完全 备份 进行 二 进 制 日 志 的 重 做 来 完成 数据 库 的 point-in-time 的 恢复 工作 。MySQL 数 据 
库 复制 (Replication) 的 原理 就 是 异步 实时 进行 二 进 制 日 志 重 做 。 

对 于 MySQL 数 据 库 来 说 ， 官 方 没有 提供 真正 的 增 量 备份 的 方法 ， 大 部 分 是 通过 二 进 制 
日 志 来 实现 的 。 这 种 方法 与 真正 的 增 量 备份 相 比 ， 效 率 还 是 很 低 的 。 假 设 有 -一 个 100G 的 数 
据 库 ， 如 果 通过 二 进 制 日 志 来 完成 备份 ， 可 能 同一 个 页 需要 多 次 执行 SQL 语句 来 完成 重 做 
的 工作 。 但 是 对 于 真正 的 增 量 备份 来 说 ， 只 需要 记录 当前 每 个 页 最 后 的 检查 点 的 LSN。 如 
果 大 于 之 前 完全 备份 时 的 LSN， 则 备份 该 页 ， 否 则 不 用 备份 。 这 大 大 加 快 了 备份 的 速度 以 
及 缩短 了 恢复 的 时 间 ， 同 时 这 也 是 xtrabackup 工 具 增 量 备份 的 原理 。 

此 外 ， 还 需要 理解 数据 库 备份 的 一 致 性 ， 这 要 求 在 备份 的 时 候 数 据 在 这 一 时 间 点 上 是 
一 致 的。 举例 来 说 ， 在 一 个 网 络 游戏 中 有 一 个 玩家 购买 了 道具 ， 这 个 事务 的 过 程 是 : 先 扣 
除 相应 的 金钱 ， 然 后 往 其 装备 表 中 插入 道具 ， 确 保 扣 费 和 得 到 的 道具 是 互相 一 致 的 。 否 则 ， 
在 恢复 时 ， 可 能 出 现金 钱 被 扣除 了 ， 但 是 装备 丢失 的 情况 。 

对 于 InnoDB 存 储 引 擎 来 说 ， 因 为 其 支持 MVCC 功 能 ， 因 此 实现 备份 一 致 比较 容易 。 可 
以 先 开启 一 个 事务 ， 然 后 导出 一 组 相关 的 表 ， 最 后 提交 。 当 然 ， 事 务 隔离 级 别 必须 是 
REPEATABLE READ 的 ， 这 样 的 做 法 就 可 以 给 你 一 个 完美 的 一 致 性 备份 。 然 而 ， 这 个 方法 
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的 前 提 是 需要 你 正确 地 设计 应 用 程序 。 上 述 购 买 道具 的 过 程 不 可 以 分 为 两 个 事务 来 完成 ， 
如 一 个 完成 扣 费 ， 一 个 完成 道具 的 购买 。 若 备份 发 生 在 这 两 者 之 间 ， 则 会 因为 逻辑 设计 的 
问题 导致 备份 出 的 数据 依然 是 不 一 致 的 。 

对 于 mysqldump 备 份 工 具 来 说 ， 可 以 通过 添加 -single-transaction 选 项 来 获得 InnoDB 存 
储 引 擎 的 一 致 性 备份 ， 原 理 和 我 们 之 前 所 说 的 相同 。 需 要 了 解 的 是 ， 这 时 的 备份 是 在 一 个 
执行 时 间 很 长 的 事务 中 完成 的 。 另 外 ， 对 于 InnoDB 存 储 引 警 的 备份 ， 要 务必 加 上 -single- 
transaction 的 选项 (虽然 是 mysqldump 的 一 个 可 选 选项 ， 但 是 我 找 不 出 任何 不 加 的 理由 )。 

同时 ， 我 建议 每 个 公司 根据 自己 的 备份 策略 编写 一 个 备份 的 应 用 程序 ， 这 个 程序 可 以 
方便 地 设置 备份 的 方法 以 及 监控 备份 的 结果 ， 并 且 可 通过 第 三 方 接口 实时 地 通知 DBA， 这 
样 才能 真正 地 做 到 24 x 7 的 备份 监控 。 我 们 公司 开发 过 一 套 DAO (Database Admin Online) 
系统 ， 这 套 系统 完 全 由 DBA 开 发 完成 ， 整 个 平台 用 python 语 言 编 写 ，Web 操 作 界 面 采用 
Django。 利 用 这 个 系统 ，DBA 可 以 方便 地 对 几 百 台 MySQL 数 据 库 服 务 器 进行 备份 ， 同 时 
查看 备份 完成 后 备份 文件 的 状态 。 之 后 我 们 的 DBA 又 对 其 进行 了 扩展 ， 不 仅 可 以 完成 备份 
工作 ， 还 可 以 实时 监控 数据 库 的 状态 、 系 统 的 状态 和 硬件 的 状态 ， 当 发 生 问 题 时 ， 通 过 飞 
信 接 口 在 第 一 时 间 以 短信 的 方式 告知 PBA。 | 

最 后 ， 任 何 时 候 都 需要 做 好 远程 异地 备份 ， 也 就 是 容 灾 的 防范 。 只 是 同一 机 房 的 两 台 
机 器 的 备份 是 远 远 不 够 的 。 我 所 在 的 公司 曾 在 2008 年 的 汶川 地 震中 出 现 了 一 个 机 房 可 能 会 
被 奖 的 情况 ， 这 时 远程 异地 备份 就 显得 至 关 重 要 了 。 


8.2 $$ 


对 InnoDB 存 储 引 擎 的 冷 备 非常 简单 ， 只 需要 备份 MySQL 数 据 库 的 frm 文 件 、 共 享 表 空 
间 文件 、 独 立 表 空间 文件 (*.ibd)、 重 做 日 志文 件 。 另 外 ， 我 建议 ， 定 期 备份 MySQIL 数 据 
库 的 配置 文件 my.cnf， 这 样 有 利于 恢复 操作 。 

通常 ，DBA 会 写 一 个 脚本 来 执行 冷 备 的 操作 ，DBA 可 能 还 会 对 备份 完 的 数据 库 进行 打 
包 和 压缩 ， 这 并 不 是 一 件 难 事 。 关 键 在 于 ， 不 要 遗漏 原本 需要 备份 的 物理 文件 ， 如 共享 表 
空间 和 重 做 日 志文 件 ， 少 了 这 些 文件 数据 库 可 能 都 无 法 启动 。 另 外 一 种 经 常 发 生 的 情况 是 ， 
由 于 磁盘 空间 已 满 而 导致 的 备份 失败 ，DBA 可 能 习惯 性 地 认为 运行 脚本 的 备份 是 没有 问题 
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的 ， 少 了 检验 的 机 制 。 
在 同一 台 机 器 上 对 数据 库 进 行 冷 备 是 远 远 不 够 的 ， 还 需要 将 本 地 的 备份 放 人 一 台 远 程 
服务 器 中 ， 以 确保 不 会 因为 本 地 数据 库 宕 机 而 影响 备份 文件 的 使 用 。 
冷 备 的 优点 是 : 
口 备 份 简单 ， 只 要 拷贝 相关 文件 即 可 。 
口 备份 文件 易于 在 不 同 操作 系统 、 不 同 MySQL 版 本 上 进行 恢复 。 
OQ 恢复 相当 简单 ， 只 需要 把 文件 恢复 到 指定 位 置 即 可 。 
OQ 恢复 速度 快 ， 不 需要 执行 任何 SQL 语句 ， 也 不 需要 重建 索引 。 
冷 备 的 缺点 是 : 
口 InnoDB 存 储 引 警 冷 备 的 文件 通常 比 逻 辑 文件 大 很 多 ， 因 为 表 空 间 中 存放 着 很 多 其 他 
数据 ， 如 Undo 段 、 插 入 缓冲 等 信息 。 
口 冷 备 并 不 总 是 可 以 轻易 地 跨 平台 。 操 作 系 统 、MySQL 的 版 本 、 文 件 大 小 写 敏感 和 浮 
点 数 格式 都 会 成 为 问题 。 


8.3 ”逻辑 备份 
8.3.1 mysqldump 


mysqldump 备 份 工具 最 初 由 Igor Romanenko 编 写 完成 ， 通 常用 来 完成 转 存 (dump) 数 
据 库 的 备份 以 及 不 同 数据 库 之 间 的 移植 ， 例 如 从 低 版 本 的 MySQL 数 据 库 升级 到 高 版 本 的 
MySQL 数 据 库 ， 或 者 从 MySQL 数 据 库 移植 到 Oracle 和 SQL Server 等 数据 库 等 。 
mysqldump 的 语法 如 下 : 


shell» mysqldump [arguments] > file name 


如 果 想 要 备份 所 有 的 数据 库 ， 可 以 使 用 --all-databaes 选 项 : 


shell» mysqldump --all-databases > dump.sql 


如 果 想 要 备份 指定 的 数据 库 ， 可 以 使 用 --databases 选 项 : 


Shell» mysqldump --databases dbl db2 db3 > dump.sql 


如 果 想 要 对 test 这 个 架构 进行 备份 ， 可 以 使 用 如 下 语句 : 
[rootéxen-server ~]# mysqldump --single-transaction test > test backup.sql 
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这 就 产生 了 一 个 对 test 架 构 的 备份 ， 我 们 使 用 --single-transaction 选 项 来 保证 备份 的 一 
致 性 ， 备 份 出 的 test_backup.sql 是 文本 文件 ， 通 过 命令 cat 就 可 以 查看 文件 的 内 容 : 


[root@xen-server ~]# cat test backup.sql 
-- MySQL dump 10.13 Distrib 5.5.1-m2, for unknown-linux-gnu (x86 64) 


-- Host: localhost Database: test 


-- Server version 5.5.1-m2-log 


/*140101 SET @OLD CHARACTER SET CLIENT-88CHARACTER SET CLIENT */; 

/*140101 SET @OLD CHARACTER SET RESULTS-88CHARACTER SET RESULTS */; 

/*140101 SET @0LD COLLATION CONNECTION=@@COLLATION_ CONNECTION */; 

/*140101 SET NAMES utf8 */; 

/*140103 SET @OLD TIME ZONE=@@TIME_ ZONE */; 

/*140103 SET TIME ZONE-'*00:00' */; 

/*140014 SET @OLD UNIQUE CHECKS-88UNIQUE CHECKS, UNIQUE CHECKS=0 */; 

/*140014 SET BOLD FOREIGN KEY CHECKS-88FOREIGN KEY CHECKS, FOREIGN KEY CHECKS-0 */; 
/*140101 SET (OLD SQL MODE=@@SQL MODE, SQL MODE-'NO AUTO VALUE ON ZERO' */; 
/*140111 SET @OLD SQL NOTES-86SQL NOTES, SQL NOTES-0 */; 


tat 


-- Table structure for table ‘a 


DROP TABLE IF EXISTS 'a'; 
/*140101 SET @saved_cs_client = @@character_set_client */; 
/*140101 SET character set client = utf8 */; 
CREATE TABLE 'a' ( 
'b' int(11) NOT NULL DEFAULT 'O', 
PRIMARY KEY ('b') 
) ENGINE-InnoDB DEFAULT CHARSET-latinl; 


/*140101 SET character set client = saved cs client */; 


tat 


-- Dumping data for table ‘a 


LOCK TABLES ‘a' WRITE; 

/*140000 ALTER TABLE 'a' DISABLE KEYS */; 
INSERT INTO 'a' VALUES (1),(2),(4),(5); 
/*140000 ALTER TABLE 'a' ENABLE KEYS */; 
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UNLOCK TABLES; 


Tg 


-- Table structure for table 'z 


DROP TABLE IF EXISTS 'z'; 
/*140101 SET 8saved cs client = 88character set client */; 
/*140101 SET character set client = utf8 */; 
CREATE TABLE 'z' ( 
'a' int(11) DEFAULT NULL 
) ENGINE-InnoDB DEFAULT CHARSET-latinl; 


/*140101 SET character set client = saved cs client */; 


1p? 


-- Dumping data for table ‘z 


LOCK TABLES 'z' WRITE; 

/*140000 ALTER TABLE 'z' DISABLE KEYS */; 
INSERT INTO 'z' VALUES (1),(1); 

/*140000 ALTER TABLE 'z' ENABLE KEYS */; 
UNLOCK TABLES; 

/*140103 SET TIME ZONE-8OLD TIME ZONE */; 


/*140101 SET SQL MODE=@OLD SQL MODE */; 

/*140014 SET FOREIGN KEY CHECKS-8OLD FOREIGN KEY CHECKS */; 
/*140014 SET UNIQUE CHECKS=@OLD UNIQUE CHECKS */; 

/*140101 SET CHARACTER SET CLIENT=@OLD CHARACTER SET CLIENT */; 
/*140101 SET CHARACTER SET RESULTS-8OLD CHARACTER SET RESULTS */; 
/*140101 SET COLLATION CONNECTION-8OLD COLLATION CONNECTION */; 
/*140111 SET SQL NOTES-8OLD SQL NOTES */; 


-- Dump completed on 2010-08-03 13:36:17 


可 以 看 到 ， 备 份 出 的 文件 内 容 就 是 表 结构 和 数据 ， 所 有 这 些 都 是 用 SQL 语句 表示 的 。 
文件 开始 和 结束 处 的 注释 是 用 来 设置 MySQL 数 据 库 的 各 项 参数 的 ， 一 般 用 来 使 还 原 工作 能 
更 有 效 和 准确 的 进行 。 之 后 的 部 分 先是 CREATE TABLE 语 句 ， 之 后 就 是 INSERT 语 句 了 。 

mysqldump 的 参数 选项 很 多 ， 可 以 通过 mysqldump -help 命 令 来 查看 所 有 的 参数 ， 有 些 
参数 有 缩写 ， 如 --lock-tables 的 缩写 为 -1， 这 里 重点 介绍 一 些 比 较 重要 的 参数 。 

Q --single-transaction; 在 备份 开始 前 ， 先 执行 START TRANSACTION 命 令 ， 以 此 来 
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获得 备份 的 一 致 性 ， 当 前 该 参数 只 对 InnoDB 存 储 引 擎 有 效 。 当 启用 该 参数 并 进行 备 
份 时 ， 确 保 没 有 其 他 任何 的 DDL 语 句 执行， 因为 一 致 性 读 并 不 能 隔离 DDL 语 句 。 
Q--lock-tables (-1); 在 备份 中 ， 依 次 锁 住 每 个 架构 下 的 所 有 表 。 一 般 用 于 MyISAM 在 
ESIR, 备份 时 只 能 对 数据 库 进行 读 取 操作 ， 不 过 备份 依然 可 以 保证 一 致 性 。 对 于 
InnoDB 存 储 引 擎 ， 不 需要 使 用 该 参数 ， 用 --single-transaction 即 可 ， 并 且 -lock-tables 
和 -single-transaction 是 互 斥 (exclusive) 的 ， 不 能 同时 使 用 。 如 果 你 的 MySQL 数 据 
库 中 既 有 MyISAM 存 储 引擎 的 表 ， 又 有 InnoDB 存 储 引擎 的 表 ， 那 么 这 时 你 的 选择 只 
有 --lock-tables 了 。 另 外 ， 前 面 说 了 ，--lock-tables 选 项 是 依次 对 每 个 架构 中 的 表 上 锁 
的 ， 因 此 只 能 保证 每 个 架构 下 表 备份 的 一 致 性 ， 而 不 能 保证 所 有 架构 下 表 的 一 致 性 。 
口 --lock-all-tables (-x): 在 备份 过 程 中 ， 对 所 有 架构 中 的 所 有 表 上 锁 。 这 可 以 避免 之 
前 提 及 的 --lock-tables 参 数 不 能 同时 锁 住 所 有 表 的 问题 。 

口 --add-drop-database; 在 CREATE DATABASE 前 先 运行 DROP DATABASE。 这 个 参 
数 需要 和 -all-databases 或 者 -databases 选 项 一 起 使 用 。 黑 认 情 况 下 ， 导 出 的 文本 文件 中 
并 不 会 CREATE DATABASE， 除 非 你 指定 了 这 个 参数 ， 因 此 可 能 会 看 到 如 下 内 容 : 


[root@xen-server ~]# mysqldump --single-transaction --add-drop-database -- 
databases test > test backup.sql 

[root@xen-server -]# cat test backup.sql 

-- MySQL dump 10.13 Distrib 5.5.1-m2, for unknown-linux-gnu (x86 64) 


00000 


-- Current Database: 'test' 


/*140000 DROP DATABASE IF EXISTS 'test'*/; 


CREATE DATABASE /*132312 IF NOT EXISTS*/ 'test' /*140100 DEFAULT CHARACTER SET latinl */; 


Q --master-data[=value]; 通过 该 参数 产生 的 备份 转 存 文件 主要 用 来 建立 一 个 slave 
replication。 当 value 的 值 为 1 时 ， 转 存 文件 中 记录 CHANGE MASTER 语 句 ， 当 value 
的 值 为 2 时 ,， CHANGE MASTER 语 句 被 写成 SQL 注 释 。 上 默认 情况 下 ，value 的 值 为 空 。 
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当 vaiue 值 为 ] 时 ， 在 备份 文件 中 会 看 到 


[root@xen-server ~]# mysqldump --single-transaction --add-drop-database -- 
master-data-1 --databases test » test backup.sql 

[root@xen-server ~]# cat test backup.sql 

-- MySQL dump 10.13 Distrib 5.5.1-m2, for unknown-linux-gnu (x86 64) 


-- Host: localhost Database: test 


-- Server version 5.5.1-m2-log 


-- Position to start replication or point-in-time recovery from 


CHANGE MASTER TO MASTER_LOG_FILE='xen-server-bin.000006', MASTER_LOG_POS=8095; 


e*t n 


当 value 为 2 时， 在 备份 文件 中 会 看 到 CHANGE MASTER 语 句 被 注释 了 : 


[root@xen-server ~]# mysqldump --single-transaction --add-drop-database -- 
master-data-2 --databases test » test backup.sql 
[root@xen-server -]£ cat test backup.sql 


-- MySQL dump 10.13 Distrib 5.5.1-m2, for unknown-linux-gnu (x86 64) 


-- Host: localhost Database: test 


-- Server version 5.5.1-m2-log 


eses.. 


-- Position to start replication or point-in-time recovery from 


eec n 


口 --master-data 会 自动 忽略 -lock-tables 选 项 。 如 果 没 有 使 用 -single-transaction 选 项 ， 则 
会 自动 使 用 -lock-all-tables 选 项 。 

口 --events (E): 备份 事件 调度 器 。 

Q--routines (-R): 备份 存储 过 程 和 溯 数 。 

口 --triggers; 备份 触发 器 。 
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Q--hex-blob: 将 BINARY、VARBINARY、BLOG、BIT 列 类 型 备份 为 十 六 进 制 的 格 
式 。mysqldump 导 出 的 文件 一 般 是 文本 文件 ， 但 是 ， 如 果 导 出 的 数据 中 有 上 述 这 些 
类 型 ， 文 本 文件 模式 下 可 能 有 些 字 符 不 可 见 ， 若 添加 -he-blob 选 项 ， 结 果 会 以 十 六 
进 制 的 方式 显示 ， 如 : 


[root@xen-server ~]# mysqldump --single-transaction --add-drop-database -- 
master-data-2 --no-autocommit --databases test3 » test3 backup.sql 
[rootéxen-server ~]# cat test3 backup.sql 

-- MySQL dump 10.13 Distrib 5.5.1-m2, for unknown-linux-gnu (x86 64) 


-- Host: localhost Database: test3 


LOCK TABLES 'a' WRITE; 

/*140000 ALTER TABLE 'a' DISABLE KEYS */; 

set autocommit-0; 

INSERT INTO 'a' VALUES (0x61000000000000000000); 
/*140000 ALTER TABLE 'a' ENABLE KEYS */; 

UNLOCK TABLES; 


可 以 看 到 ， 这 里 用 0x61000000000000000000 〈 十 六 进 制 的 格式 ) 来 导出 数据 。 

口 --tab=path (-T path): 产生 TAB 分 割 的 数据 文件 。 对 于 每 张 表 ，mysqldump 创 建 一 
个 包含 CREATE TABLE 语 句 的 table_name.sql 文 件 和 和 包含 数据 的 tbl_name.txt。 可 
LA fis FH--fields-terminated-byz..., --fields-enclosed-by=..., --fields-optionally- 
enclosed-by=..., --fields-escaped-by=..., --lines-terminated-byc...3c Bic Ze BA 1 B5 2 A 
符 、 换 行 符 等 ， 如 : 


[rootéxen-server test]# mysqldump --single-transaction --add-drop-database -- 
tab-"/usr/local/mysql/data/test" test 


[root@xen-server test]# ls -lh 


total 244K 

-rw-rw---- 1 mysql mysql 8.4K Jul 21 16:02 a.frm 
-rw-rw---- 1 mysql mysql 96K Jul 22 17:18 a.ibd 
-rw-r--r-- l root root 1.3K Aug 3 15:36 a.sql 
-rw-rw-rw- 1 mysql mysql 8 Aug 3 15:36 a.txt 
-rw-rw---- 1 mysql mysql 65 Jul 17 15:54 db.opt 
-rw-rw---- 1 mysql mysql 8.4K Aug 2 17:22 z.frm 
-rw-rw---- 1 mysql mysql 96K Aug 2 17:22 z.ibd 
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-rw-r--r-- 1 root root 1.3K Aug 3 15:36 z.sql 
-rw-rw-rw- 1 mysql mysql 4 Aug 3 15:36 z.txt 


-- Server version 5,5.1-m2-log 


/*140101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */; 
/*140101 SET &OLD CHARACTER SET RESULTS-88CHARACTER SET RESULTS */; 
/*140101 SET @OLD_COLLATION_CONNECTION=@@COLLATION CONNECTION */; 
/*140101 SET NAMES utf8 */; 

/*140103 SET @OLD TIME ZONE=@@TIME ZONE */; 

/*140103 SET TIME ZONE='+00:00' */; 

/*140101 SET 8OLD SOL MODE-88SQL MODE, SQL MODE-'' */; 

/*140111 SET &OLD SQL NOTES-88SQL NOTES, SQL NOTES-0 */; 


-~ Table structure for table 


DROP TABLE IF EXISTS 'a'; 
/*140101 SET @saved cs client = 88character set client */; 
/*140101 SET character set client - utf8 */; 
CREATE TABLE 'a' ( 
'b' int(11) NOT NULL DEFAULT '0', 
PRIMARY KEY ('b') 
) ENGINE-InnoDB DEFAULT CHARSET-latinl; 


/*140101 SET character set client = saved cs client */; 

/*140103 SET TIME ZONE-8OLD TIME ZONE */; 

/*140101 SET SOL MODE-8OLD SQL MODE */; 

/*140101 SET CHARACTER SET CLIENT-8O0LD CHARACTER SET CLIENT */; 
/*140101 SET CHARACTER_SET_RESULTS=@0LD_CHARACTER_SET_RESULTS */; 
/*140101 SET COLLATION CONNECTION-8OLD COLLATION CONNECTION */i 
/*140111 SET SQL NOTES-8OLD SQL NOTES */; 

-- Dump completed on 2010-08-03 15:36:56 

[rootéxen-server test]# cat a.txt 


1 


2 
4 
5 
大 多 数 DBA 喜 欢 用 SELECT ... INTO OUTFILE 的 方式 来 导出 一 张 表 ， 但 是 通过 
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mysqldump 一 样 可 以 完成 工作 ， 而 且 可 以 一 次 完成 多 张 表 的 导出 ， 并 且 保证 导出 数据 的 一 
致 性 。 
口 --wherez'where condition' (-w 'where_condition' ) :导出 给 定 条 件 的 数据 。 例 如 ， 导 
出 pb 架构 下 的 表 a， 并 且 表 a 的 数据 大 于 2 如 下 所 示 。 


[root@xen-server bin]# mysqldump --single-transaction --where='b>2' test a > a.sql 


[rootéxen-server bin]# cat a.sql 


-- MySQL dump 10.13 Distrib 5.5.1-m2, for unknown-linux-gnu (x86 64) 


-- Host: localhost Database: test 


"ctt: 


-- Dumping data for table 'a 
-- WHERE: b>2 


LOCK TABLES 'a' WRITE; 

/*140000 ALTER TABLE 'a' DISABLE KEYS */; 
INSERT INTO 'a' VALUES (4),(5): 

/*140000 ALTER TABLE 'a' ENABLE KEYS */; 

UNLOCK TABLES; 

/*140103 SET TIME ZONE-8OLD TIME ZONE */; 


ect, 


8.3.2 SELECT ... INTO OUTFILE 


SELECT..INTO 语 句 也 是 一 种 逻辑 备份 的 方法 ， 或 者 更 准确 地 说 是 导出 一 张 表 中 的 数 
据 。SELECT ... INTO 的 语法 如 下 : 


SELECT [column 1],[column 2] ... 
INTO 

OUTFILE 'file name' 

[(FIELDS | COLUMNS) 

[TERMINATED BY 'string'] 
[[OPTIONALLY] ENCLOSED BY 'char'] 
[ESCAPED BY ‘char'] 

] 
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[LINES 
[STARTING BY 'string'] 
[TERMINATED BY 'string'] 
1 

FROM TABLE WHERE ...... 


其 中 字段 [TERMINATED BY 'string'] 表示 每 个 列 的 分 隔 符 ，[[OPTIONALLY] 


ENCLOSED BY 'char] 表 示 对 于 字符 串 的 包含 符 ，[ESCAPED BY 'char'] 表 示 转 义 符 ， 


[STARTING BY 'string'] 表 示 每 行 的 开始 符号 ，TERMINATED BY 'string' 表 示 每 行 的 结束 


符号 。 如 果 没 有 指定 任何 FIELDS 和 LINES 的 选项 ， 默 认 使 用 以 下 的 设置 


FIELDS TERMINATED BY '\t' ENCLOSED BY '' ESCAPED BY ‘\\' 
LINES TERMINATED BY '\n' STARTING BY '' 


file_name 表 示 导 出 的 文件 ， 但 文件 所 在 的 路 径 的 权限 必须 是 mysql: mysql, Fil 


MySQL 会 报告 没有 权限 导出 : 


mysql» select * into outfile '/root/a.txt' from a; 
ERROR 1 (HY000): Can't create/write to file '/root/a.txt' (Errcode: 13) 


车 已 经 存在 该 文件 ， 则 同样 会 报错 : 


[root@xen-server ~]# mysql test -e "select * into outfile ‘/home/mysql/a.txt' 


fields terminated by ',' from a"; 


ERROR 1086 (HY000) at line 1: File '/home/mysql/a.txt' already exists 


查看 通过 SELECT INTO 导 出 的 表 a 文 件 : 


mysql» select * into outfile '/home/mysql/a.txt' from a; 


Query OK, 3 rows affected (0.02 sec) 


mysql» quit 


Bye 

[root@xen-server ~]# cat /home/mysql/a.txt 
1 a 

2 b 

3 c 


可 以 发 现 , 默认 导出 的 文件 是 以 TAB 进 行列 分 割 的 , 如 果 想 要 使 用 其 他 分 割 符 , 如 “,”， 
则 可 以 使 用 FIELDS TERMINATED BY 'string' 选 项 ， 如 : 


[root@xen-server ~]# mysql test -e "select * into outfile '/home/mysql/a.txt 


fields terminated by ',' from a"; 
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[rootéxen-server ~}# cat /home/mysql/a.txt 
l,a 
2,b 


3,¢ 


在 Windows 平 台 下 ， 因 为 其 换行 符 是 “\r\n”， 因 此 在 导出 时 可 能 需要 指定 LINES 
TERMINATED BY 选项 ， 如 : 


[root@xen-server mysql]# mysql test -e "select * into outfile '/home/mysql/a. 


tot 


txt' fields terminated by ',' lines terminated by '\r\n' from a"; 


[root@xen-server mysql]# od -c a.txt 
0000000 1 , a NN \n 2 , b \r An 30, c Nr \n 
0000017 


8.3.3 逻辑 备份 的 恢复 


mysqldump 的 恢复 操作 比较 简单 ， 因 为 备份 的 文件 就 是 导出 的 SQL 语句 ， 一 般 只 需要 
执行 这 个 文件 就 可 以 了 ， 可 以 通过 以 下 的 方法 : 


[root@xen-server ~]# mysql -uroot -p < test backup.sql 


Enter password: 


如 果 在 导出 时 包含 了 创建 和 删除 数据 库 的 SQL 语句 ， 则 必须 确保 删除 架构 时 架构 目录 
下 没有 其 他 与 数据 库 无 关 的 文件 ， 否 则 可 能 会 出 现 以 下 的 错误 : 


mysql> drop database test; 
ERROR 1010 (HY000): Error dropping database (can't rmdir './test', errno: 39) 


因为 逻辑 备份 的 文件 是 由 SQL 语句 组 成 的 ， 所 以 也 可 以 通过 SOURCE 命 令 来 执行 导出 
的 逻辑 备份 文件 ， 如 下 所 示 : 


mysql> source /home/mysql/test backup.sql; 
Query OK, 0 rows affected (0.00 sec) 


Query OK, 0 rows affected (0.00 sec) 
Query OK, 0 rows affected (0.00 sec) 


Query OK, 0 rows affected (0.00 sec) 
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通过 mysqldump 可 以 恢复 数据 库 ， 但 是 常 发 生 的 一 个 问题 是 mysqldump 可 以 导出 存储 
过 程 、 触 发 器 、 事 件 、 数 据 ， 但 是 却 不 能 导出 视图 。 因 此 ， 如 果 你 的 数据 库 中 还 使 用 了 视 
图 ， 那 么 在 用 mysqldump 备 份 完 数据 库 后 还 需要 导出 视图 的 定义 ， 或 者 保存 视图 定义 的 frm 
文件 ， 并 在 恢复 时 进行 导入 ， 这 样 才 能 保证 mysqldump 数 据 库 的 完全 恢复 。 


8.3.4 LOAD DATA INFILE 


若是 通过 mysqldump --tab 或 SELECT INTO OUTFILE 导 出 的 数据 需要 恢复 时 ， 这 时 需 
要 通过 LOAD DATA INFILE 命 令 来 进行 导入 ，LOAD DATA INFILE 的 语法 如 下 所 示 : 


LOAD DATA [LOW PRIORITY | CONCURRENT] [LOCAL] INFILE 'file name' 
[REPLACE | IGNORE] 

INTO TABLE tbl name 

[CHARACTER SET charset name] 
[(FIELDS | COLUMNS) 

[TERMINATED BY 'string'] 
[[OPTIONALLY] ENCLOSED BY 'char'] 
[ESCAPED BY 'char'] 

] 

[LINES 

[STARTING BY 'string'] 
[TERMINATED BY 'string'] 

] 

[IGNORE number LINES] 

[(col name or user var,...)] 


[SET col name = expr,...] 


要 对 服务 器 文件 使 用 LOAD DATA INFILE， 必 须 拥有 FILE 权 ， 其 中 导入 格式 的 选项 和 
之 前 介绍 的 SELECT INTO OUTFILE 命 令 完全 一 样 。IGNORE number LINES 选 项 可 以 忽略 
导入 的 前 几 行 。 下 面 来 看 一 个 用 LOAD DATA INEFILE 命 令 导 入 文件 的 示例 ， 并 忽略 第 一 行 
的 导入 : 


mysql» load data infile '/home/mysql/a.txt' into table a; 
Query OK, 3 rows affected (0.00 sec) 
Records: 3 Deleted: 0 Skipped: 0 Warnings: 0 


为 了 加 快 InnoDB 存 储 引擎 的 导入 ， 你 可 能 希望 导入 过 程 忽略 对 外 键 的 检查 ， 因 此 可 以 
使 用 如 下 方式 。 
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mysql» set 88foreign key checks-0; 
Query OK, 0 rows affected (0.00 sec) 


mysql» load data infile '/home/mysql/a.txt' into table a; 
Query OK, 4 rows affected (0.00 sec) 
Records: 4 Deleted: 0 Skipped: 0 Warnings: 0 


mysql» set 88foreign key checks-1; 


Query OK, 0 rows affected (0.00 sec) 


另外 可 以 针对 指定 的 列 进行 导入 ， 如 将 数据 导入 列 a、b， 而 c 列 等 于 a、b 列 之 和 ; 


mysql» create table b ( a int,b int,c int,primary key(a))engine-innodb; 


Query OK, 0 rows affected (0.01 sec) 


mysql> load data infile '/home/mysql/a.txt' into table b fields terminated by 
',' (a,b) set c=a+tb; 

Query OK, 4 rows affected (0.01 sec) 

Records: 4 Deleted: 0 Skipped: 0 Warnings: 0 


LOAD DATA INEFILE 命 令 可 以 用 来 导入 数据 ， 但 同时 可 以 完成 对 Linux 操 作 系 统 的 监 
控 。 如 果 需 要 监控 CPU 的 使 用 情况 ， 可 以 通过 加 载 /proc/stat 来 完成 。 首 先 我 们 需要 建立 一 
张 监控 CPU 的 表 cpu_stat， 其 结构 如 下 所 示 : 


mysql> CREATE TABLE IF NOT EXISTS DBA.cpu stat ( 
-> id bigint auto_increment primary key, 
-> value char(25) NOT NULL, 
-> user bigint, 
-> nice bigint, 
-> system bigint, 
-> idle bigint, 
-> iowait bigint, 
-> irq bigint, 
-> softirq bigint, 
-> steal bigint, 
-> guest bigint, 
-> other bigint, 
-> time datetime 
-*o3 


Query OK, 0 rows affected (0.00 sec) 


接着 可 以 通过 用 LOAD DATA INFILE 命 令 来 加 载 /proc/stat 文 件 ， 但 需要 对 其 中 一 些 数 
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值 进行 转化 ， 命 令 如 下 所 示 : 


mysql» LOAD DATA INFILE '/proc/stat' 


-> IGNORE INTO TABLE DBA.cpu_stat 

-> FIELDS TERMINATED BY ' ' 

-> (@value, 8vall, 8val2, @val3,-@val4, @val5, @val6, @val7, @val8, @val9, @vall0) 

-> SET 

-> value = évalue, 

-> user = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@vall, 0), IFNULL(@val2,0))), 

-» nice = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@val2, 0), IFNULL(@val3,0))), 

-» system = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@val3, 0), IFNULL(@val4,0))), 

> idle = IF(8value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@val4, 0), IFNULL(@val5,0))), 

-» iowait = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@val5, 0), IFNULL(@val6,0))), 

-» irq = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@val6, 0), IFNULL(@val7,0))), 

-> softirg = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != ‘cpu', 
IFNULL(@val7, 0), IFNULL(@val8,0))), 

一 > steal = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@val8, 0), IFNULL(8val9,0))), 

c» guest = IF(@value NOT LIKE 'cpu$', NULL, IF(@value != 'cpu', 
IFNULL(@val9, 0), IFNULL(@val10,0))), 

-» other = IF(@value like 'cpu$', user + nice + system + idle + iowait + 


irq + softirq + steal + guest, @vall), 
-> time = now(); 
Query OK, 15 rows affected, 1 warning (0.00 sec) 


Records: 15 Deleted: 0 Skipped: 0 Warnings: 1 


接着 查看 表 cpu_stat， 可 以 看 到 类 似 如 下 的 内 容 : 


mysql» select * from cpu stat*G; 
ockckokckck ck ck ok okockck ok ck ck ck okok kok o kok kk k kk 1. row kk ko ko ko kokock ko kok ck kock kok ko kkk k kk 
id: 1 
value: cpu 
user: 2632896 
nice: 67761 
System: 688488 
idle: 4136329105 
iowait: 1468238 
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irq: 0 
softirq: 106303 
Steal: 148300 
guest: 0 
~ other: 4141441091 
time: 2010-09-10 12:01:04 
ee eee e e e che ee e e ce e e e ee e e ee x00 。 YOW eee e e e ke e e e e e e e e e e e ee KAKA 
id: 2 
value: cpu0 
user: 1092690 
nice: 32285 
system: 170083 
idle: 515689748 
iowait: 652274 
irq: 0 
softirq: 13856 
steal: 29217 
guest: 0 
other: 517680153 
time: 2010-09-10 12:01:04 


000000 


cde eee he eee eoe eee eee e dede eoe RA xn x 14. row de he che de che e ede eode he eee ode oe eee ee de n de d x 
id: 14 
value: procs running 
user: NULL > 
nice: NULL 
system: NULL 
idle: NULL 
iowait: NULL 
irq: NULL 
softirq: NULL 
steal: NULL 
guest: NULL 
other: 1 
time: 2010-09-10 12:01:04 
de e de che dede oe oe e he eoe ee oe e eoe e ee oe dee A € 15. row e che che ede he ehe ee e ee e dee dede e dee de e de d x 
id: 15 
value: procs blocked 
user: NULL 
nice: NULL 
system: NULL 
idle: NULL 
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i 


so 


15 


owait: NULL 
irq: NULL 
ftirq: NULL 
Steal: NULL 
guest: NULL 
other: 0 
time: 2010-09-10 12:01:04 


rows in set (0.00 sec) 


接着 可 以 设置 一 个 定时 器 来 让 MySQL 数 据 库 自 动 地 运行 上 述 LOAD DATA INEFILE 语 
句 ， 这 样 就 会 有 每 个 时 间 点 的 CPU 信息 被 记录 到 表 cpu_stat。 执 行 下 述 语句 就 可 以 得 到 每 
个 时 间 点 上 CPU 的 使 用 情况 : 


my 
一 > 
一 > 
-> 
-> 
-> 
-> 
-> 
-> 
-> 
-> 
-> 
-> 
-> 
-> 
-> 


kk 


sy 


io 


so 
S 


g 


Ei 


sql> select 
100*((new.user-old.user )/(new.other-old.other)) user, 
100*(( new.nice - old.nice ) / ( new.other - old.other ) ) nice, 
100 * (( new.system - old.system) / (new.other - old.other) ) system, 
100*(( new.idle - old.idle) / ( new.other - old.other ) ) idle, 
100*(( new.iowait - old.iowait) / (new.other - old.other)) iowait, 
100*(( new.irq - old.irq ) / ( new.other - old.other ) ) irq, 
100*((new.softirq ~ old.softirg)/(new.other - old.other)) softer, 


100 * (( new.steal - old.steal ) / ( new.other - old.other ) ) steal, 


100 * (( new.guest - old.guest ) / ( new.other - old.other ) ) guest, 
new.time 
from DBA.cpu stat old, 


DBA.cpu stat new 
where new.id -15 - old.id 


and old.value = ‘cpu 


and new.value = old.value\G; 

kkkkkkkkkkkkkkkkkkkkkkkkk ], row *žkkkkkkkkkkkkkkkkkkkkkkkkkk 
user: 0.0357 
nice: 0.0036 

stem: 0.2237 

idle: 99.5964 
wait: 0.1376 

irq: 0.0000 
fter: 0.0000 
teal: 0.0029 
uest: 0.0000 
time: 2010-09-10 12:07:25 


Rea RE KK ERE KERR 2., row *dokckck ckok kck ck kcko kc k kc kcok kc k kk kkkkkkk 
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user: 1.5346 
nice: 0.3534 
system: 8.9854 
idle: 85.2297 


iowait: 3.8768 

irq: 0.0000 
softer: 0.0000 
steal: 0.0202 
guest: 0.0000 


time: 2010-09-10 12:07:38 


3 e e e ee ke e ke e ee he e ke e ec ke e e de ke e de e x 3, row Cock ecc ke e ck ec e ke e e e e e e e e e e e 


user: 1.4837 
nice: 0.0000 
system: 7.9300 
idle: 79.2285 
iowait: 11.3476 
irq: 0.0000 
softer: 0.0000 
steal: 0.0102 
guest: 0.0000 
time: 2010-09-10 12:07:50 


3 rows in set (0.00 sec) 
同样 ， 我 们 还 可 以 对 /proc/diskstat 文 件 执行 如 上 述 所 示 的 操作 ， 这 样 就 又 可 以 对 磁盘 
进行 监控 操作 了 。 


8.3.5 mysqlimport 


mysqlimport 是 MySQL 数 据 库 提供 的 一 个 命令 行程 序 ， 从 本 质 上 来 说 ， 是 LOAD DATA 
INFILE 的 命令 接口 ， 而 且 大 多 数 的 选项 都 和 LOAD DATA INFILE 语 法 相同 。 其 语法 格式 
如 下 : 

shell» mysqlimport [options] db name textfilel [textfile2 ...] 

与 LOAD DATA INFILE 不 同 的 是 ，mysqlimport 命 令 是 可 以 导入 多 张 表 的 ， 并 且 通 过 -- 
user-thread 参 数 来 并 发 导入 不 同 的 文件 。 这 里 的 并 发 是 指 并 发 导入 多 个 文件 ， 并 不 是 指 
mysqlimport 可 以 并 发 地 导入 一 个 文件 ， 这 是 有 区 别 的 ， 并 且 并 发 地 对 同一 张 表 进 行 导入 ， 
效果 一 般 都 不 会 比 串 行 的 方式 好 。 通 过 mysqlimport 并 发 地 导入 两 张 表 。 
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[rootéxen-server mysql]# mysqlimport --use-threads-2 test /home/mysql/t.txt 
/home/mysql/s.txt 

test.s: Records: 5000000 Deleted: 0 Skipped: 0 Warnings: 0 

test.t: Records: 5000000 Deleted: 0 Skipped: 0 Warnings: 0 


如 果 在 上 述 命令 运行 的 过 程 中 查看 MySQL 的 数据 库 线 程 列表 ， 应 该 可 以 看 到 类 似 如 下 
的 内 容 : 
mysql> show full processlist\G; 
ooo occ ck ko ke ko ko ko ko ooo oko kokokokokokokok l. LOW **kkkkkkkkkkk kk kkkkkk kk 
Id: 46 
User: rep 
Host: www.dao.com:1028 
db: NULL 
Command: Binlog Dump 
Time: 37651 
State: Master has sent all binlog to slave; waiting for binlog to be updated 
Info: NULL 
KAKTKXKTTTXKXKKKKXXKXXXXKKrkKXXkkx 2. row KKXAFKKKKKKKXXKXxKXXXxKXxkKxKXXxXkxKk 
Id: 77 
User: root 
Host: localhost 
db: test 
Command: Query 
Time: 0 
State: NULL 
Info: show full processlist 
Ckockckck ck ck kk ko kk ko ko ko ko ko ko kokok kock k ck ok ok 3. row Xckckck koc ockock ck ko ck ko ko ko ko ko ko ko kock kockock k kk 
Id: 83 
User: root 
Host: localhost 
db: test 
Command: Query 
Time: 73 
State: NULL 
Info: LOAD DATA INFILE '/home/mysql/t.txt' INTO TABLE 't' IGNORE 0 LINES 
oce c t t ke ko ko ko ko ko ko oko ko k kk 4. row ccc oko oco ck ko ko ok kc ko k ko ko ok ko k k kk 
Id: 84 
User: root. 
Host: localhost 
db: test 


Command: Query 
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Time: 73 
State: NULL 
Info: LOAD DATA INFILE '/home/mysql/s.txt' INTO TABLE 's' IGNORE 0 LINES 


4 rows in set (0.00 sec) 
可 以 看 到 mysqlimport 实 际 上 是 同时 执行 了 2 条 LOAD DTA INFILE 语 句 来 完成 并 发 导入 
操作 。 


8.4 二 进 制 日 志 备份 与 恢复 


二 进 制 日 志 非 常 关 键 ， 我 们 可 以 通过 它 来 完成 point-in-time 的 恢复 工作 。MySQL 数 据 
库 的 复制 同样 需要 二 进 制 日 志 。 软 认 情 况 下 并 不 启用 二 进 制 日 志 ， 要 使 用 二 进 制 日 志 ， 
先 必 须 启 用 它 ， 在 配置 文件 中 进行 如 下 设置 : 


[mysqld] 
log-bin 


在 3.2.4 小 节 中 已 经 阐述 过 ， 对 于 InnoDB 存 储 引 苟 只 是 简单 启用 二 进 制 日 志 是 不 够 的 ， 
还 需要 启用 一 些 其 他 参数 来 保证 安全 和 正确 地 记录 二 进 制 日 志 ， 推 荐 的 二 进 制 日 志 的 服务 
器 配置 应 该 是 : 


[mysqld] 
log-bin 
sync binlog = 1 


innodb support xa = 1 

备份 二 进 制 日 志文 件 前 ， 可 以 通过 FLUSH LOGS 命 令 来 生成 一 个 新 的 二 进 制 日 志文 件 ， 
然后 备份 之 前 的 二 进 制 日 志 。 

要 恢复 二 进 制 日 志 也 非常 简单 ， 通 过 mysqlbinlog 即 可 ，mysqlbinlog 的 使 用 方法 如 下 

shell» mysqlbinlog [options] log file ... 

例如 ， 要 还 原 binlog.0000001， 可 以 使 用 如 下 命令 : 

shell>mysqlbinlog binlog. 0000001 | mysql -uroot -p test 

如 果 需 要 恢复 多 个 二 进 制 日 志文 件 ， 最 正确 的 做 法 应 该 是 同时 恢复 多 个 二 进 制 日 志文 
件 ， 而 不 是 一 个 一 个 地 恢复 ， 如 : 


shell» mysqlbinlog binlog.[0-10]* | mysql -u root -p test 
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也 可 以 先 通 过 mysqlbinlog 命 令 导 出 到 一 个 文件 ， 然 后 再 通过 SOURCE 命 令 来 导入 。 这 


种 做 法 的 好 处 是 ， 可 以 对 导出 的 文件 进行 修改 后 再 导入 ， 如 ; 


shell> mysqlbinlog binlog.000001 > /tmp/statements.sql 
shell» mysqlbinlog binlog.000002 >> /tmp/statements.sql 


shell» mysql -u root -p -e "source /tmp/statements.sql" 


--start-position 和 --stop-position 选 项 可 以 用 来 指定 从 二 进 制 日 志 的 某 个 偏 移 量 来 进行 恢 
这 样 可 以 跳 过 某 些 不 正确 的 语句 ， 如 : 


shell>mysqlbinlog --start-position=107856 binlog. 0000001 | mysql -uroot -p test 


--start-datetime 和 --stop-datetime 选 项 可 以 用 来 指定 从 二 进 制 日 志 的 某 个 时 间 点 来 进行 


恢复 ， 用 法 和 --start-position 和 --stop-position 选 项 基本 相同 。 


8.5 Ae 


8.5.1 ibbackup 


ibbackup 是 InnoDB 存 储 引擎 官方 提供 的 热 备 工具 ， 可 以 同时 备份 MyISAM 存 储 引 警 表 


和 InnoDB 存 储 引擎 表 。InnoDB 存 储 引擎 表 的 备份 工作 原理 如 下 : 


1) 记录 备份 开始 时 ，InnoDB 存 储 引擎 重 做 日 志文 件 检查 点 的 LSN。 

2) 拷贝 共享 表 空 间 文件 以 及 独立 表 空 间 文件 。 

3) 记录 拷贝 完 表 空 间 文件 后 ，InnoDB 存 储 引擎 重 做 日 志文 件 检查 点 的 LSN。 

4) 拷贝 在 备份 时 产生 的 重 做 日 志 。 

对 于 事务 型 的 数据 库 ， 如 SQL Server 数 据 库 、Oracle 数 据 库 ， 热 备 的 原理 与 上 述 大 致 


相同 。 可 以 发 现 ， 在 备份 期 间 不 会 对 数据 库 本 身 有 任何 影响 ， 所 做 的 操作 只 是 拷贝 数据 库 
文件 ， 因 此 任何 对 数据 库 的 操作 都 是 允许 的 ， 不 会 出 现 阻塞 情况 。 因 此 ，ibbackup 的 优点 
如 下 : 


口 在 线 备份 。 不 阻塞 任何 SQL 语句 。 

口 备份 性 能 好 。 备 份 的 实质 是 复制 数据 库 文件 和 重 做 日 志文 件 。 

口 支持 压缩 备份 。 通 过 选项 ， 可 以 支持 不 同 级 别 的 压缩 。 

口 跨 平 台 支 持 。ibbackup 可 以 运行 在 Linux、Windows 以 及 主流 的 Unix 系 统 平台 上 。 
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ibbackup 对 InnoDB 存 储 引 警 表 的 恢复 过 程 如 下 ; 

(1) 恢复 表 空间 文件 。 

(2) 应 用 重 做 日 志文 件 恢复 InnoDB 存 储 引 擎 表 。 

ibbackup 提 供 了 一 种 高 性 能 的 热 备 方式 ， 是 InnoDB 存 储 引 擎 备份 的 首选 方式 。 不 过 它 
是 收费 软件 ， 好 在 Pecona 公 司 给 我 们 带 来 了 开源 、 免 费 的 XtraBackup 热 备 工具 ， 它 可 以 实 
现 ibbackup 的 所 有 功能 ， 并 且 还 扩展 支持 真正 的 增 量 备份 功能 。 因 此 ， 更 好 的 选择 应 该 是 
使 用 XtraBackup 来 完成 热 备 的 工作 。 


8.5.2 XtraBackup 


XtraBackup&#fMySQL 数据 库 5.0 版 和 5.1 版 ， 同 时 也 支持 InnoDB Plugin 版 本 新 增 的 
Barracuda 页 格式 。XtraBackup 在 GPL v2 开源 协议 下 发 布 ， 官 方 网 站 地 址 是 : https:// 


launchpad.net/percona-xtrabackup, 


xtrabackup 命 令 的 使 用 方法 如 下 : 


xtrabackup --backup | --prepare [OPTIONS] 


xtrabackup 命 令 的 可 选 参 数 如 下 所 示 : 


(The defaults options should be given as the first argument) 


--print-defaults Prints the program's argument list and exit. 
--no-defaults Don't read the default options from any file. 
--defaults-file- Read the default options from this file. 
--defaults-extra-file- Read this file after the global options files have been 
read. 

--target-dir- The destination directory for backups. 

--backup Make a backup of a mysql instance. 

--stats Calculate the statistic of the datadir (it is 
recommended you take mysqld offline). 

--prepare Prepare a backup so you can start mysql server with your 
restore. 

--export Create files to import to another database after it has 


been prepared. 
--print-param Print the parameters of mysqld that you will need for a 


for copyback. 


--use-memory- This value is used instead of buffer pool size. 
--suspend-at-end Creates a file called xtrabackup suspended and waits 
until the 
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user deletes that file at the end of the backup. 
--throttle- (use with --backup) Limits the IO operations (pairs of 
reads and writes) 


per second to the values set here. 


--log-stream outputs the contents of the xtrabackup logfile to 
stdout. 
--incremental-lsn- (use with --backup) Copy only .ibd pages newer than 


the specified LSN high:low. 

##ATTENTION##: checkpoint lsn *must* be used. Be Careful! 
--incremental-basedir- (use with --backup) Copy only .ibd pages newer than 

the existing backup at the specified directory. 
--incremental-dir- (use with --prepare) Apply .delta files and logfiles 
located in the specified directory. 
--tables-name Regular Expression list of table names to be backed up. 
--create-ib-logfile (NOT CURRENTLY IMPLEMENTED) will create ib logfile* 
after a --prepare. 

### If you want to create ib logfile* only re-execute 
this command using the same options. ### 
--datadir-name Path to the database root. 
--tmpdir-name Path for temporary files. Several paths may be 
specified as a colon (:) separated string. 

If you specify multiple paths they are used round-robin. 


如 果 我 们 要 做 一 个 完全 备份 ， 可 以 执行 如 下 命令 : 


# ./xtrabackup --backup 
./xtrabackup Ver alpha-0.2 for 5.0.75 unknown-linux-gnu (x86 64) 
>> log scanned up to (0 1009910580) 
Copying ./ibdatal 
to /home/kinoyasu/xtrabackup work/mysql-5.0.75/innobase/xtrabackup/tmp2/ibdatal 
...done 
Copying ./tpcc/stock.ibd 
to /home/kinoyasu/xtrabackup work/mysql-5.0.75/innobase/xtrabackup/tmp2/tpcc/stock.ibd 
+ + done 
Copying ./tpcc/new orders.ibd 
to /home/kinoyasu/xtrabackup work/mysql-5.0.75/innobase/xtrabackup/tmp2/tpcc/new orders.ibd 
«+ +. done 
Copying ./tpcc/history.ibd 
to /home/kinoyasu/xtrabackup_work/mysql-5.0.75/innobase/xtrabackup/tmp2/tpec/history. ibd 
.. done 
Copying ./tpcc/customer.ibd 
to /home/kinoyasu/xtrabackup work/mysql-5.0.75/innobase/xtrabackup/tmp2/tpcc/customer.ibd 
>> log scanned up to (0 1010561109) 
...done 
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Copying ./tpcc/district.ibd 

to /home/kinoyasu/xtrabackup_work/mysql-5.0.75/innobase/xtrabackup/tmp2/ 
tpcc/district.ibd 

+ + «done 
Copying ./tpcc/item.ibd 

to /home/kinoyasu/xtrabackup_work/mysql-5.0.75/innobase/xtrabackup/tmp2/ 
tpcc/item.ibd 

è + .done 
Copying ./tpcc/order line.ibd . 

to /home/kinoyasu/xtrabackup work/mysq1-5.0.75/innobase/xtrabackup/tmp2/ 
tpcc/order line.ibd 
>> log scanned up to (0 1012047066) 

-..done 
Copying ./tpcc/orders.ibd 

to /home/kinoyasu/xtrabackup work/mysq1-5.0.75/innobase/xtrabackup/tmp2/ 
tpcc/orders.ibd 

+ .done 

Copying ./tpcc/warehouse.ibd 

to /home/kinoyasu/xtrabackup work/mysql-5.0.75/innobase/xtrabackup/tmp2/ 
tpcc/warehouse.ibd 

. e done 
>> log scanned up to (0 1014592707) 
Stopping log copying thread.. 
Transaction log of lsn (0 1009910580) to (0 1014592707) was copied. 


8.5.3 XtraBackup 实 现 增 量 备份 


MySQL 数 据 库 本 身 提供 的 工具 并 不 支持 真正 的 增 量 备份 ， 更 准确 地 说 ， 二 进 制 日 志 的 
恢复 应 该 是 Point-in-time 的 恢复 而 不 是 增 量 备份 。XtraBackup 工 具 支持 对 InnoDB 存 储 引擎 
的 增 量 备份 ， 其 工作 原理 如 下 ; 

(1) 首先 完成 一 个 完全 备份 ， 并 记录 下 此 时 检查 点 的 LSN。 

(2) 在 进行 增 量 备份 时 ， 比 较 表 空间 中 每 个 页 的 LSN 是 否 大 于 上 次 备份 时 的 LSN， 如 
果 是 ， 则 备份 该 页 ， 同 时 记录 当前 检查 点 的 LSN。 

因此 XtraBackup 的 备份 和 恢复 过 程 大 致 如 下 : 


(full backup) 
# ./xtrabackup --backup --target-dir-/backup/base 
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(incremental backup) 
# ./xtrabackup --backup --target-dir=/backup/delta --incremental- 
basedir=/backup/base 


(prepare) 
# ./xtrabackup --prepare --target-dir-/backup/base 


see 


(apply incremental backup) 
# ./xtrabackup --prepare --target-dir-/backup/base --incremental- 
dir-/backup/delta 


上 述 过 程 中， 首先 将 全 部 文件 备份 到 /backup/base 目 录 下 ， 增 量 备份 产 生 的 文件 备份 到 
/backup/delta。 恢 复 过 程 中 ， 首 先 指定 完全 备份 的 路 径 ， 然 后 将 增 量 备份 应 用 于 该 完全 备 
份 。 以 下 显示 了 一 个 完整 的 增 量 备份 过 程 : 


# ./xtrabackup --backup 

./xtrabackup Ver beta-0.4 for 5.0.75 unknown-linux-gnu (x86 64) 

»» log scanned up to (0 378161500) 

The latest check point (for incremental): '0:377883685' <===== 使 用 这 个 LSN 
>> log scanned up to (0 379294296) 

Stopping log copying thread.. 

Transaction log of lsn (0 377883685) to (0 379294296) was copied. 


(must do --prepare before the each incremental backup) 
# ./xtrabackup --prepare 


# ./xtrabackup --backup --incremental=0:377883685 
incremental backup from 0:377883685 is enabled. 
./xtrabackup Ver beta-0.4 for 5.0.75 unknown-linux-gnu (x86 64) 
>> log scanned up to (0 379708047) 
Copying ./ibdatal 

to /home/kinoyasu/xtrabackup work/mysql1-5.0.75/innobase/xtrabackup/ 
tmp diff/ibdatal.delta 

-..done 

The latest check point (for incremental): '0:379438233' <==== 下 一 个 增 量 备份 开始 的 LSN 
>> log scanned up to (0 380663549) 
Stopping log copying thread.. 
Transaction log of lsn (0 379438233) to (0 380663549) was copied. 
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MYSQL 数据 库 本 身 并 不 支持 快照 功能 ， 因 此 快照 备份 是 指 通过 文件 系统 支持 的 快照 功 
能 对 数据 库 进 行 备 份 。 备 份 的 前 提 是 将 所 有 数据 库 文件 放 在 同一 文件 分 区 中 ， 然 后 对 该 分 
区 执行 快照 工作 。 支 持 快照 功能 的 文件 系统 和 设备 包括 FreeBSD 的 UFS 文 件 系 统 ，Solaris 
的 ZFS 文 件 系统 ，GNU/Linux 的 逻辑 卷 管理 器 (Logical Volume Manager, LVM) 等 。 这 里 
以 LVM 为 例 进行 介绍 ，UFS 和 ZFS 的 快照 实现 大 致 和 LVM 相 似 。 

LVM 是 Linux 系 统 下 对 磁盘 分 区 进行 管理 的 一 种 机 制 。LVM 在 硬盘 和 分 区 之 上 建立 一 
个 逻辑 层 来 提高 磁盘 分 区 管理 的 灵活 性 。 管 理 员 可 以 通过 LVM 系 统 轻松 管理 磁盘 分 区 ， 例 
如 ， 将 若干 个 磁盘 分 区 连接 为 一 个 整 块 的 卷 组 (Volume Group)， 形 成 一 个 存储 池 。 管 理 
员 可 以 在 卷 组 上 随意 创建 逻辑 卷 (Logical Volume) ， 并 进一步 在 逻辑 卷 上 创建 文件 系统 。 
管理 员 通过 LVM 可 以 方便 地 调整 卷 组 的 大 小 , 并 且 可 以 对 磁盘 存储 按照 组 的 方式 进行 命名 、 
管理 和 分 配 。 简 单 地 说 ， 我 们 可 以 通过 LVM 由 物理 块 设 备 (如 硬盘 等 ) 创建 物理 卷 ， 由 一 
个 或 多 个 物理 卷 创 建 卷 组 ， 最 后 从 卷 组 中 创建 任意 数量 的 逻辑 卷 (不 超过 卷 组 大 小 )， 如 
图 8-1 所 示 。 


Ivcreate ii 


Logical Volumes 





Volume Group 





vgcreate 


ME ioni sn ox 
iss [on on | not 


图 8-1 LVM 的 工作 原理 
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图 8-2 显 示 了 由 多 块 磁盘 组 成 的 逻辑 卷 LV0。 


physical disk 0 physical disk 1 l physical disk 2 


ldev/hdal |  /dev/hda2 | /dev/hda3 | /dev/hda4 /dev/hdb “/dev/hdd 





通过 vgdisplay 命 令 查看 系统 中 有 哪些 卷 组 ， 如 : 


[root8nh124-98 -]£ vgdisplay 


--- Volume group --- 


VG Name rep 
System ID 

Format lvm2 
Metadata Areas 1 


Metadata Sequence No 1873 


VG Access read/write 

VG Status resizable 

MAX LV 0 

Cur LV 3 

Open LV 1 

Max PV 0 

Cur PV 1 

Act PV 1 

VG Size 260.77 GB 

PE Size 4.00 MB 

Total PE 66758 

Alloc PE / Size 66560 / 260.00 GB i 
Free PE / Size 198 / 792.00 MB 

VG UUID MQJiye-j4NN-LbZG-F3CQ-UdTU-fO09D-RRfÍXD5 


vgdisplay 命 令 的 输出 结果 显示 当前 系统 有 一 个 rep 的 卷 组 ， 大 小 为 260.77GB ， 该 卷 组 
访问 权限 是 read/write 等 。 可 以 用 命令 lvdisplay 来 查看 当前 系统 中 有 哪些 逻辑 卷 : 


[root8nh124-98 -]£ lvdisplay 


--- Logical volume --- 


LV Name /dev/rep/repdata 

VG Name rep 

LV UUID 7tOlDt-seKZ-ChpY-QMXC-WaFD-zXAl-MRbofK 
LV Write Access read/write 

LV snapshot status Source of 


/dev/rep/dho datasnapshot100805143507 [active] 
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LV Status 

# open 

LV Size 

Current LE 
Segments 
Allocation 

Read ahead sectors 
- currently set to 
Block device 


--- Logical volume --- 
LV Name 

VG Name 

LV UUID 

LV Write Access 

LV snapshot status 

LV Status 

# open 

LV Size 

Current LE 

COW-table size 
COW-table LE 
Allocated to snapshot 
Snapshot chunk size 
Segments 

Allocation 

Read ahead sectors 

- currently set to 
Block device 


--- Logical volume --- 
LV Name 

VG Name 

LV UUID 

LV Write Access 

LV snapshot status 

LV Status 

# open 

LV Size 

Current LE 

COW-table size 
COW-table LE 
Allocated to snapshot 


/dev/rep/dho datasnapshot100805163504 [active] 


available 
1 

100.00 GB 
25600 

1 

inherit 
auto 

256 

253:0 


/dev/rep/dho_datasnapshot100805143507 
rep 
fSSXzh-IBnZ-aZIn-eP03-b7pk-CPjN-5xUktE 
read only 

active destination for /dev/rep/repdata 
available 

0 

100.00 GB 

25600 

80.00 GB 

20480 

0.13% 

4.00 KB 

1 

inherit 

auto 

256 

253:1 


/dev/rep/dho_datasnapshot100805163504 
rep 
3B9NP1-qWVG-pfJY-Bdgm-DIdD-dUMu-s2L6qJ 
read only 

active destination for /dev/rep/repdata 
available 

0 

100.00 GB 

25600 

80.00 GB 

20480 

0.02$ 


www.TopSage.com 


RSF 





备份 与 恢复 289 


Snapshot chunk size 4.00 KB 
Segments 1 
Allocation inherit 
Read ahead sectors auto 

- currently set to 256 
Block device 253:4 


可 以 看 到 ， 一 共有 3 个 逻辑 卷 ， 都 属于 卷 组 rep， 每 个 逻辑 卷 的 大 小 都 是 100GB。 
/dev/rep/repdata 这 个 逻辑 卷 有 两 个 只 读 快 照 ， 并 且 当 前 都 是 激活 状态 的 。 

LVM 使 用 了 写 时 复制 《Copy-on-write) 技术 来 创建 快照 。 当 创建 一 个 快照 时 ， 仪 拷贝 
原始 卷 里 数据 的 元 数据 ， 并 不 会 有 数据 的 物理 操作 ， 因 此 快照 的 创建 过 程 是 非常 快 的 。 当 
快照 创建 完成 后 ， 原 始 卷 上 有 和 写 操 作 时 ， 快 照会 跟踪 原始 卷 块 的 改变 ， 将 要 改变 的 数据 在 
改变 之 前 拷贝 到 快照 预 留 的 空间 里 ， 因 此 这 个 原理 的 实现 叫做 写 时 复制 。 而 对 于 快照 的 读 
取 操 作 ， 如 果 读 取 的 数据 块 是 创建 快照 后 没有 修改 过 的 ， 那 么 会 将 读 操作 直接 重 定向 到 原 
始 卷 上 ， 如 果 要 读 取 的 是 已 经 修改 过 的 块 ， 则 将 读 取保 存在 快照 中 的 原始 数据 。 因 此 ， 采 
用 写 时 复制 机 制 保证 了 读 取 快 照 时 得 到 的 数据 与 快照 创建 时 的 数据 是 一 致 的 。 





图 8-3 显 示 了 LVM 的 快照 读 取 ， 可 见 B 区 块 被 修改 了 ， 因 此 历史 数据 放 入 了 快照 区 域 。 
读 取 快照 数据 时 ，A、C、D 块 还 是 从 原 有 卷 中 读 取 ， 而 B 块 就 需要 从 快照 读 取 了 。 
可 以 用 命令 lvcreate 来 创建 一 个 快照 ，--permission r 表 示 创 建 的 快照 是 只 读 的 
[root@nh119-215 data]# lvcreate --size 100G --snapshot --permission r -n 
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datasnapshot /dev/rep/repdata 


Logical volume "datasnapshot" created 


在 快照 制作 完成 后 ， 可 以 用 lvdisplay 命 令 来 查看 ， 输 出 中 的 COW-table size 字 段 表示 该 
快照 最 大 空间 的 大 小 ，Allocated to snapshot 字 段 表 示 该 快照 当前 空间 的 使 用 状况 : 


[root@nh124-98 ~]# lvdisplay 


--- Logical volume --- 
LV Name 
VG Name 
LV UUID 
LV Write Access 
LV snapshot status 
LV Status 
# open 
LV Size 
Current LE 
COW-table size 
COW-table LE 
Allocated to snapshot 
Snapshot chunk size 
Segments 
Allocation 
Read ahead sectors 
- currently set to 


Block device 


/dev/rep/dho datasnapshot100805163504 
rep 
3B9NPl-qWVG-pfJY-Bdgm-DIdD-dUMu-s2L6qJ 
read only 

active destination for /dev/rep/repdata 
available 

0 

100.00 GB 

25600 

80.00 GB 

20480 

0.04% 

4.00 KB 

1 

inherit 

auto 

256 

253:4 


可 以 看 到 ， 当 前 快照 只 使 用 了 0.04 多 的 空间 。 快 照 在 最 初创 建 时 总 是 很 小 的 ， 只 有 当 源 
数据 卷 的 数据 不 断 被 修改 ， 这 些 数据 库 才 会 放 人 快照 空间 ， 这 时 快照 的 大 小 才 会 慢 慢 增 大 。 
用 LVM 快 照 备 份 ImnoDB 存 储 引擎 表 相 当 简单 ， 只 要 把 与 InnoDB 存 储 引 警 相 关 的 文件 
如 共享 表 空 间 、 独 立 表 空间 、 重 做 日 志文 件 等 放 在 同一 个 逻辑 卷 中 ， 然 后 对 这 个 逻辑 卷 进 


行 快照 备份 即 可 。 


在 对 InnoDB 存 储 引 擎 文件 做 快照 时 ， 数 据 库 无 须 关 闭 ， 可 以 进行 在 线 备份 。 虽 然 此 时 
数据 库 中 可 能 还 有 任务 需要 往 磁盘 上 写 数 据 ， 但 这 不 会 妨碍 备份 的 正常 进行 。 因 为 InnoDB 
存储 引擎 是 事务 安全 的 引擎 ， 在 下 次 恢复 时 ， 数 据 库 会 自动 检查 表 空 间 中 页 的 状态 ， 并 决 
定 是 否 应 用 重 做 日 志 ， 恢 复 就 好 像 数 据 库 被 意外 重启 了 。 

启用 LVM 快 照 需要 规划 以 下 几 个 方面 。 
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口 快照 空间 大 小 的 划分 。 如 果 源 逻辑 卷 的 大 小 是 100G， 快 照 最 大 可 能 生产 的 空间 是 
100GB, ， 但 是 如 果 每 4 个 小 时 生成 一 份 快照 ， 则 无 须 划 分 100G 的 空间 ， 只 要 判断 在 4 
小 时 内 最 多 产生 的 快照 空间 即 可 。 
口 快照 启用 后 磁盘 的 性 能 。 启 用 快照 后 ， 磁 盘 的 性 能 必定 会 有 所 下 降 ， 因 为 第 一 次 修 
改 一 个 数据 块 时 会 将 该 块 复制 到 快照 空间 。 虽 然 之 后 的 修改 不 会 再 复制 到 快照 空间 ， 
但 磁盘 的 开销 显然 还 是 有 所 增 大 。 需 要 判断 这 些 性 能 上 的 损失 数据 库 是 否 可 以 承担 。 
不 能 把 快照 备份 当 作 完全 备份 来 使 用 ， 因 为 当 数 据 库 所 在 服务 器 发 生硬 件 故障 时 ， 如 
RAID 卡 损坏 ， 这 时 快照 备份 是 不 能 进行 恢复 的 。 快 照 备 份 更 偏向 于 对 误 操 作 的 防范 ， 可 
以 将 数据 库 迅速 地 恢复 到 快照 产生 的 时 间 点 ， 然 后 再 根据 二 进 制 日 志 执行 pointrin-time 的 
恢复 。 就 我 的 习惯 ， 我 通常 把 LVM 的 备份 放 在 replication 的 Slave 服 务 器 上 。 


8.7 复制 
8.7.1 复制 的 工作 原理 


复制 是 MySQL 数 据 库 提 供 的 一 种 高 可 用 、 高 性 能 的 解决 方案 ， 一 般 用 来 建立 大 型 的 应 
用 。 总 体 来 说 ， 复 制 的 工作 原理 分 为 以 下 三 个 步骤 : 

(1) 主 服 务 器 把 数据 更 新 记录 到 二 进 制 日 志 中 。 

(2) 从 服务 器 把 主 服务 器 的 二 进 制 日 志 拷贝 到 自己 的 中 继 日 志 (Relay Log) 中 。 

(3) 从 服务 器 重 做 中 继 日 志 中 的 时 间 ， 把 更 新 应 用 到 自己 的 数据 库 上 。 

工作 原理 并 不 复杂 ， 其 实 就 是 完全 备份 和 二 进 制 日 志 备 份 的 还 原 。 不 同 的 是 ， 这 个 二 
进 制 日 志 的 还 原 操作 基本 上 是 实时 进行 的 。 注 意 ， 不 是 完全 的 实时 ， 而 是 异步 的 实时 。 其 
中 存在 主 从 服务 器 之 间 的 执行 延 时 ， 如 果 主 服务 器 的 压力 很 大 ， 则 这 个 延 时 可 能 更 长 。 其 
工作 原理 如 图 8-4 所 示 。 

从 服务 器 有 两 个 线程 : 一 个 是 IO 线程 ， 负 责 读 取 主 服务 器 的 二 进 制 日 志 ， 并 将 其 保存 
为 中 继 日 志 ; 另 一 个 是 SQL 线 程 ， 复制 执行 中 继 日 志 。 在 MySQL 4.0 版 本 之 前 ， 从 服务 器 
只 有 1 个 线程 ， 既 负责 读 取 二 进 制 日 志 ， 又 负责 执行 二 进 制 日 志 中 的 SQL 语句 。 这 种 方式 
不 符合 高 性 能 的 要 求 ， 已 被 淘汰 。 因 此 ， 如 果 查 看 一 个 从 服务 器 的 状态 ， 应 该 可 以 看 到 类 
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似 如 下 的 内 容 。 






~-------------~。 






日 志 传 送 


ee ee a et oe ee e 


- 


图 8-4 MySQL 数 据 库 复制 工作 原理 


mysql» show full processlist\G; 
kkkkkkkkkkkkkkkkkkkkkkkkkkk l. row KEKKKKKKKKKKKKKKKKKKKKKKKEKEEK 
Id: 1 
User: system user 
Host: 
db: NULL 
Command: Connect 
Time: 6501 
State: Waiting for master to send event 
Info: NULL 
KE RO EERE CR KCROR ee ES 2. row KEKKKKKEKKKEKEKEKEKKKKKKKKKKKKKK 
Id: 2 


User: system user 


db: NULL 
Command: Connect 
Time: 0 
State: Has read all relay log; waiting for the slave I/O thread to update it 
Info: NULL 
kkkkkkkkkkkkkkkkkkkkkkkkkk k d row kkkkkkkkkkkkkkkkkkkkkkkkkk*k 
Id: 206 
User: root 
Host: localhost 
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db: 


Command: 


NULL 
Query 
Time: 0 
State: NULL 

Info: 
3 rows in set (0.00 sec) 


show full processlist 
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可 以 看 到 ，ID 为 1 的 线程 就 是 IO 线程 ， 目 前 的 状态 是 等 待 主 服务 器 发 送 二 进 制 日 志 。 
ID 为 2 的 线程 是 SQL 线程 ， 负 责 执 行 读 取 中 继 日 志 并 执行 。 目 前 的 状态 是 已 读 取 所 有 的 中 
继 日 志 ， 等 待 中 继 日 志 被 1O 线 程 更 新 。 

在 复制 的 主 服务 器 上 应 该 可 以 看 到 有 一 个 线程 负责 发 送 二 进 制 日 志 ， 类 似 如 下 的 内 容 : 


mysql» show full processlist\G; 


tok kok ee ee de dee ee dee de ee eee *** 65. 


Id: 
User: 
Host: 

db: 

Command: Binlog Dump 
: 6857 


26541 

rep 
192.168.190.98:39549 
NULL 


: NULL 


row e e ee ee ee eee ehe e ee eee ede ee e de EEA 


: Has sent all binlog to slave; waiting for binlog to be updated 


之 前 已 经 说 过 ，MySQL 的 复制 是 异步 同步 的 ， 并 非 完 全 的 主 从 同步 。 要 想 查 看 当前 的 
延迟 ， 可 以 使 用 命令 SHOW SLAVE STATUS 和 SHOW MASTER STATUS， 如 下 所 示 : 


mysql> show slave status\G; 
3c e e e e e he e ehe e ee e e e e e e e x xxx 1, 
Slave IO State: 
Master Host: 
Master User: 
Master Port: 
Connect Retry: 
Master Log File: 
Read Master Log Pos: 
Relay Log File: 
Relay Log Pos: 
Relay Master Log File: 


Slave IO Running: 
Slave SQL Running: 


LOW "koe ee e e e ke e e e e e ke e e e he e e de e x 


Waiting for master to send event 
192.168.190.10 


rep 
3306 

60 

mysql-bin.000007 
555176471 
gamedb-relay-bin.000048 
224355889 
mysql-bin.000007 

Yes 

Yes 
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Replicate Do DB: 
Replicate Ignore DB: 
Replicate Do Table: 
Replicate Ignore Table: 
Replicate Wild Do Table: 
Replicate Wild Ignore Table: mysql.$,DBA.$ 
Last Errno: 0 
Last Error: 
Skip Counter: 0 
Exec Master Log Pos: 555176471 
Relay Log Space: 224356045 
Until Condition: None 
Until Log File: 
Until Log Pos: 0 
Master SSL Allowed: No 
Master SSL CA File: 
Master SSL CA Path: 
Master SSL Cert: 
Master SSL Cipher: 
Master SSL Key: 
Seconds Behind Master: 0 
Master SSL Verify Server Cert: No 
Last IO Errno: 0 
Last IO Error: 
Last SQL Errno: 0 
Last SQL Error: 


1 row in set (0.00 sec) 


通过 SHOW SLAVE STATUS 命令 可 以 观察 当前 复制 的 运行 状态 
口 Slave_IO_State。 显 示 当 前 IO 线程 的 状态 ， 上 述 状态 显示 
进 制 日 志 。 

口 Master_Log_File。 显 示 当 前 同步 的 主 服务 器 的 二 进 制 日 志 ， 
的 是 主 服务 器 的 mysql-bin.000007。 





主要 它 的 参数 有 : 
是 等 待 主 服务 器 发 送 二 


述 状态 显示 当前 同步 


口 Read_Master_Log_Pos。 显 示 当 前 同步 到 主 服务 器 上 二 进 制 日 志 的 偏 移 量 位 置 ， 单 位 


是 字 节 。 上 述 示例 显示 了 当前 同步 到 mysql-bin.000007 的 555176471 偏 移 量 位 置 ， 即 已 
经 同步 了 mysql-bin.000007 这 个 二 进 制 日 志 中 529M (555176471/1024/1024) 的 内 容 。 


口 Relay_Master_Log_File。 当 前 中 继 日 志 同 步 的 二 进 制 日 志 。 
口 Relay_Log_File。 显 示 当 前 写 人 的 中 继 日 志 。 
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口 Relay_Log_Pos。 显 示 当 前 执行 到 中 继 日 志 的 偏 移 量 位 置 。 

口 Slave_IO_Running。 从 服务 器 中 IO 线程 的 运行 状态 ，YES 表 示 运 行 正常 。 

口 Slave_SQL_Running。 从 服务 器 中 SQL 线程 的 运行 状态 ，YES 表 示 运 行 正常 。 

口 Exec_Master_Log_Pos。 表 示 同 步 到 主 服务 器 的 二 进 制 日 志 偏 移 量 的 位 置 。 
(Read, Master Log Pos - Exec Master Log Pos) 可 以 表示 当前 SQL 线程 运行 的 
时 ， 单 位 是 字 节 。 上 述 示 例 显示 当前 主 从 服务 器 是 完 人 同步 的 。 

命令 SHOW MASTER STATUS 可 以 用 来 查看 主 服务 器 中 二 进 制 日 志 的 状态 ， 如 


mysql> show master status\G; 


kkkkkkkkk ke ee ck ke e ck ke ek ke kk kk E Li Ly row sk ke ehe ce che ce ce echec che cec e ce ck ce e ck se EEE x 
File: mysql-bin.000007 
Position: 606181078 
Binlog Do DB: 
Binlog Ignore DB: 


1 row in set (0.01 sec) 


可 以 看 到 ， 当 前 二 进 制 日 志 记 录 了 偏 移 量 606181078 的 位 置 ， 该 值 减 去 这 一 时 间 点 时 
从 服务 上 的 Read_Master_Log_Pos， 就 可 以 得 知 7O 线 程 的 延 时 。 

一 个 好 的 数据 库 复制 监控 不 仅 要 监控 从 服务 器 上 的 IO 线程 和 SQL 线程 是 否 运 行 正常 ， 
而 且 还 应 该 监控 从 服务 器 和 主 服务 器 之 间 的 延迟 ， 确 保 从 服务 器 上 的 数据 库 状 态 总 是 非常 
接近 主 服 务 器 上 数据 库 的 状态 。 


8.7.2 快照 + 复制 的 备份 架构 


复制 可 以 用 来 作为 备份 ， 但 其 功能 不 仅 限于 备份 ， 其 主要 功能 如 下 : 

口 数 据 分 布 。 由 于 MySQL 数 据 库 提供 的 复制 并 不 需要 很 大 的 带宽 ， 因 此 可 以 在 不 同 的 
数据 中 心 之 间 实 现 数据 的 拷贝 。 

口 读 取 的 负载 平衡 。 通 过 建立 多 个 从 服务 器 ， 可 将 读 取 平均 地 分 布 到 这 些 从 服务 器 中 ， 
从 而 减少 主 服 务 器 的 压力 。 一 般 可 以 通过 DNS 的 Round-Robin 和 Linux 的 LVS 功 能 实 
现 负载 平衡 。 

口 数 据 库 备份 。 复 制 对 备份 很 有 帮助 ， 但 是 从 服务 器 不 是 备份 ， 不 能 完全 代替 备份 。 

口 高 可 用 性 和 故障 转移 。 通 过 复制 建立 的 从 服务 器 有 助 于 故障 转移 ， 减 少 故 障 的 停机 
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时 间 和 恢复 时 间 。 

可 见 ， 复 制 的 设计 目的 不 是 简 简单 单 用 来 备份 的 ， 并 且 只 用 复制 来 进行 备份 是 远 远 不 
够 的 。 假 设 当 前 应 用 采用 了 主 从 式 的 复制 架构 ， 从 服务 器 用 来 作为 备份 ， 一 个 不 太 有 经 验 
的 DBA 执 行 了 误 操作 ， 如 DROP DATABASE&# DROP TABLE， 这 时 从 服务 器 也 跟着 运 
行 了 ， 那 这 时 如 何 从 服务 器 进行 恢复 呢 ? 

一 种 比较 好 的 方法 是 通过 对 从 服务 器 上 的 数据 库 所 在 的 分 区 做 快照 ， 以 此 来 避免 复制 
对 误 操作 的 处 理 能 力 。 当 主 服务 器 上 发 生 误 操作 时 ， 只 需要 恢复 从 服务 器 上 的 快照 ， 然 
后 再 根据 二 进 制 日 志 执 行 point-in-time 的 恢复 即 可 。 因 此 ， 快 照 + 复制 的 备份 架构 如 图 8-5 
Br: 
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图 8-5 快照 + 复制 的 备份 架构 


还 有 一 些 其 他 方法 可 用 来 调整 复制 ， 比 如 采用 延 时 复制 ， 即 间歇 性 地 开启 从 服务 器 上 
的 同步 功能 ， 保 证 大 约 一 小 时 的 延迟 。 这 的 确 也 是 一 个 方法 ， 只 是 数据 库 在 高 峰 和 非 高 峰 
期 间 每 小 时 产生 的 二 进 制 日 志 量 是 不 同 的， 很 难 精准 地 控制 。 另 外 ， 这 种 方法 也 不 能 完 
防止 误 操 作 的 发 生 。 

从 服务 器 上 还 可 以 启用 read-only 选 项 ; 


[mysqld] 
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启用 read-only 选 项 后 ， 如 果 操 作 从 服务 器 的 用 户 没有 SUPER 权 限 ， 则 对 从 服务 器 执行 
任何 修改 操作 都 会 抛 出 一 个 错误 ， 如 ; 


mysql» insert into z select 2; 
ERROR 1290 (HY000): The MySQL server is running with the --read-only option so 


it cannot execute this statement 


8.8 小 结 


本 章 首先 介绍 了 不 同 的 备份 类 型 ， 并 讲解 了 MySQL 数 据 库 常用 的 一 些 备份 方式 。 其 中 
主要 讲解 对 InnoDB 存 储 引 擎 的 备份 ，mysqldump 和 xtrabackup 等 工具 都 可 以 很 好 地 对 
InnoDB 存 储 引 擎 表 进 行 在 线 热 备份 工作 。 最 后 , 讲解 了 复制 , 通过 快照 和 复制 技术 的 结合 ， 
可 以 保证 我 们 得 到 一 个 实时 的 在 线 MySQL 备 份 解决 方案 。 
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性 能 优化 不 是 一 项 简单 的 工作 ， 但 也 不 是 复杂 的 难事 ， 关 键 在 于 对 InnoDB 存 储 引擎 特 
性 的 了 解 。 如 果 之 前 各 章 的 内 容 你 已 经 完全 理解 并 掌握 了 ， 那 么 你 应 该 基本 掌握 了 如 何 使 得 
InnoDB 存 储 引擎 更 好 地 为 你 工作 。 本 章节 将 从 以 下 几 个 方面 集中 讲解 InnoDB 的 性 能 问题 : 

O 选择 合适 的 CPU。 

口 内存 的 重要 性 。 

O 硬盘 对 数据 库 性 能 的 影响 。 

口 合理 地 设置 RAID。 

Q 操作 系统 的 选择 也 很 重要 。 

O 不 同文 件 系 统 对 数据 库 的 影响 。 

口 选 择 合适 的 基准 测试 工具 。 


9.1 选择 合适 的 CPU 


首先 要 清楚 数据 库 应 用 的 分 类 ， 一般 分 为 两 类 : OLTP (Online Transaction Processing, 
在 线 事务 处 理 ) 和 OLAP (Online Analytical Processing， 在 线 分 析 人 处理)， 这 是 两 种 完全 不 
同 的 数据 库 应 用 。OLAP 多 用 在 数据 仓库 或 数据 集 市 中 ， 一 般 需 要 执行 复杂 的 SQL 语 句 来 
进行 查询 ，OLTP 多 用 在 日 常 的 事物 处 理应 用 中 ， 如 银行 交易 、 在 线 商 品 交 易 、Blog、 网 
络 游戏 等 应 用 。 相 对 于 OLAP， 数 据 库 的 容量 较 小 。 

InnoDB 存 储 引 警 一 般 都 应 用 于 OLTP 的 数据 库 应 用 ， 这 种 应 用 的 特点 如 下 所 示 : 

口 用 户 操作 的 并 发 量 大 。 l 

O 事务 处 理 的 时 间 一 般 比 较 短 。 

口 查询 的 语句 较为 简单 ， 一 般 都 走 索 引 。 

口 复 杂 的 查询 较 少 。 
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可 以 看 出 ，OLTP 的 数据 库 应 用 本 身 对 CPU 的 要 求 并 不 高 ， 因 为 复杂 的 查询 可 能 需要 执 
行 比较 、 排 序 、 连 接 等 非常 耗 CPU 的 操作 ， 这 些 操作 在 OLTP 的 数据 库 应 用 中 很 少 发 生 。 
因此 ,可 以 说 OLAP 是 CPU 密 集 型 的 操作 ， 而 OLTP 是 10 密 集 型 的 操作 。 建 议 在 采购 设备 时 ， 
应 将 更 多 的 注意 力 放 在 提高 IO 的 配置 上 。 

此 外 ， 为 了 获得 更 多 内 存 的 支持 ，CPU 必 须 支持 64 位 的 应 用 ， 否 则 无 法 支持 64 位 操作 
系统 的 安装 。 因 此 ， 为 新 的 应 用 选择 64 位 的 CPU 是 必要 的 前 提 。 现 在 4 核 的 CPU 已 经 非常 
普遍 ， 而 今年 Intel 和 AMD 又 都 推出 了 6 核 的 CPU， 将 来 随 着 操作 系统 的 升级 ， 我 们 还 可 能 
看 到 128 核 的 CPU， 这 都 需要 数据 库 更 好 地 对 其 进行 支持 。 

从 InnoDB 存 储 引擎 的 设计 架构 上 来 看 ， 其 主要 的 后 台 操作 都 是 在 一 个 单独 的 MASTER 
THREAD 中 完成 的 ， 因 此 并 不 能 很 好 地 支持 多 核 的 应 用 。 当 然 ， 开 源 社区 已 经 通过 多 种 方 
法 来 改变 这 种 局 面 ， 新 的 InnoDB Plugin 版 本 在 各 种 测试 下 已 经 显示 对 多 核 CPU 的 处 理性 能 
有 了 极 大 的 提高 。 因 此 ， 如 果 你 的 CPU 支持 多 核 ，InnoDB Plugin 是 更 好 的 选择 。 另 外 ， 如 
果 你 的 CPU 是 多 核 的 ， 你 可 以 通过 修改 参数 innodb_read_io_threads 和 innodb_write io_ 
threads 来 增 大 IO 的 线程 ， 这 样 也 能 更 充分 利用 CPU 的 多 核 性 能 。 

在 当前 的 MySQL 版 本 中 ， 一 条 SQL 查询 语句 只 能 在 一 个 CPU 行 工 作 ， 并 不 支持 多 CPU 
的 处 理 。OLTP 的 数据 库 应 用 操作 一 般 都 很 简单 ， 因 此 对 OLTP 应 用 的 影响 并 不 是 很 大 。 但 
是 ， 多 个 CPU 或 多 核 CPU 对 处 理 大 并 发 量 的 请 求 还 有 非常 有 帮助 的 。 


9.2 内 存 的 重要 性 


内 存 的 大 小 最 能 直接 反应 数据 库 的 性 能 。 通 过 前 面 的 章节 我 们 已 经 了 解 到 ，InnoDB 存 
储 引 敬 既 缓存 数据 ， 又 缓存 索引 ， 并 将 其 缓存 于 一 个 很 大 的 缓冲 池 中 ， 我 们 将 这 个 缓冲 池 
#rXInnoDB Buffer Pool， 它 的 大 小 直接 影响 了 数据 库 的 性 能 。Percona 公 司 的 CTO Vadim 
对 此 做 了 一 次 测试 ， 以 此 反应 内 存 的 重要 性 ， 结 果 如 图 9-1 所 示 。 

在 上 述 的 测试 中 ， 数 据 和 索引 总 大 小 为 18GB ， 然 后 将 缓冲 池 的 大 小 分 别 设 为 2GB、 
4GB、6GB、8GB、10GB、12GB、14GB、16GB、18GB、20GB、22GB ， 再 进行 
sysbench 的 测试 。 可 以 发 现 ， 随 着 缓冲 池 的 增 大 ， 测试 结 果 TPS (Transaction Per Second) 
会 线性 增长 。 当 缓冲 池 增 大 到 20GB 和 22GB， 数 据 库 的 性 能 有 了 极 大 的 提高 ， 因 为 这 时 缓 
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冲 池 的 大 小 已 经 大 于 数据 文件 本 身 的 大 小 ， 所 有 对 数据 文件 的 操作 都 可 以 在 内 存 中 进行 ， 
因此 这 时 的 性 能 应 该 是 最 优 的 ， 再 调 大 缓冲 地 并 不 能 再 提高 数据 库 的 性 能 。 


sysbench oltp, 80mln rows (18GB data) 











—9—RAID10 























2 4 6 8 10 12 14 16 18 20 22 


Buffer pool {memory}, GB 


图 9-1 不 同 内 存 容 量 下 InnoDB 存 储 引擎 的 性 能 表现 


所 以 ， 应 该 在 开发 应 用 前 预 估 “活跃 “数据 库 的 大 小 可 能 会 是 多 少 ， 并 以 此 确定 数据 
库 服务 器 内 存 的 大 小 。 当 然 ， 要 使 用 更 多 的 内 存 ， 还 必须 使 用 64 位 的 操作 系统 。 

如 何 判断 当前 数据 库 的 内 存 是 否 已 经 达到 瓶颈 了 呢 ? 可 以 通过 查看 当前 服务 器 的 状 
态 ， 比 较 物理 磁盘 的 读 取 和 内 存 读 取 的 比例 来 判断 缓冲 凶 的 命中 率 ， 通 常 ImnoDB 存 储 引擎 
的 缓冲 池 的 命中 率 不 应 该 小 于 99%， 如 : 


mysql» show global status like ‘innodb$read%'\G; 
cede cde e ce eee ee ce ck ek ck kk ek ko Li l. LOW k*kkckckck kk ck ck ck kk ck ko ck kc kok ok ck ok okokok o 
Variable name: Innodb buffer pool read ahead 

Value: O 
kkkkkkkkkkkkkkkkkkkkkk*k*kk 2. row *KFKKKKKKKKKXKXKXLKKKKKXKKKKxxk 
Variable name: Innodb buffer pool read ahead evicted 

Value: O 
ck ck koe e e ee ke ck ce ke ck ke ke ke kk ok kk kk kk 3. LOW **kk*kk kk k kk kk kk kk ko k kc ko kk kk ek 
Variable name: Innodb buffer pool read requests 

Value: 167051313 


KKKKKFKKKXKKKKKKKKKKKKKKKKKA 4. LOW ***k*kk kk k kk ok kx kk kk kk ke ke kk ok kx kx x 


Variable name: Innodb buffer pool reads 
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Value: 129236 


3e ck e coke ee ee ce eoe dece dece dece dece deo eo x à x 5. LOW kk ce e e ee e KKK RK KKK KKK RRR 


Variable name: Innodb data pending reads 
Value: 0 


3e ke ke e e e ce ce ce e eoe ce cete oe eee e e e eee e x 6. LOW kk e ee ee ke e e e e e e ee e e x kkk 


Variable name: Innodb data read 
Value: 2135642112 


oce e ce ce e ce e cede ce eoe echec ce ce ce e e ox x AX s LOW BERK KKK KKK ke e e ke ke e ke kk n x 


Variable name: Innodb data reads 
Value: 130309 


RRR KEKE KEKE KK KE kk kk kkk kkk KEKE B. LOW KERR RRR ode coke ke e e e e e e e e ke kx x 


Variable name: Innodb pages read 
Value: 130215 


RRR KEKE KEKE KKK EEE KK REE ZA Li 9. COW Mee eee kkk eoe e e ce e e e ke kk € 


Variable name: Innodb rows read 
Value: 17651085 


9 rows in set (0.00 sec) 


上 述 参数 的 具体 含义 如 下 所 示 : 

Q Innodb_buffer_pool_reads: 表示 从 物理 磁盘 读 取 页 的 次 数 。 

Q Innodb_buffer_pool_read_ahead; 预 读 的 次 数 。 

Q Innodb_buffer_pool_read_ahead_evicted; 预 读 的 页 ， 但 是 没有 被 读 取 就 从 缓冲 池 中 
被 替换 的 页 的 数量 ， 一 般 用 来 判断 预 读 的 效率 。 

Q Innodb, buffer pool read requests; 从 缓冲 池 中 读 取 页 的 次 数 。 

口 Innodb_data_read; 总 共 读 人 的 字 节 数 。 

口 Innodb_data_reads: 发 起 读 取 请 求 的 次 数 ， 每 次 读 取 可 能 需要 读 取 多 个 页 。 

以 下 公式 可 以 计算 各 种 对 缓冲 了 地 的 操作 : 


innode buffer pool read requests 


缓冲 池 命中 率 = 


(innodb buffer pool read requests--Innodb, buffer pool re 
ad ahead--Innodb buffer pool reads) 
innodb data read 


平均 每 次 读 取 的 字 节 数 =- 


innodb data reads 

从 上 面 的 例子 看 ， 缓 冲 池 命中 率 = 167224026 / (1672240264 12926440) = 99.92%, s] 
见 当 前 内 存 的 压力 并 不 是 很 大 。 

即使 缓冲 袖 的 大 小 已 经 大 于 数据 库 文件 的 大 小 ， 这 也 不 意味 着 没有 磁盘 操作 。 数 据 库 
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的 缓冲 池 只 是 一 个 用 来 存放 热点 的 区 域 ， 后 台 的 master 线 程 还 负责 将 脏 页 异步 地 写 人 磁盘 ， 
每 次 事务 提交 时 还 需要 立即 写 人 重 做 日 志文 件 。 


9.3 硬盘 对 数据 库 性 能 的 影响 
9.3.1 传统 机 械 硬 盘 


当前 大 多 数 数据 库 使 用 的 都 是 传统 的 机 械 硬 盘 。 机 械 硬 盘 的 技术 目前 已 非常 成 熟 ， 在 
服务 器 领域 一 般 使 用 SAS 或 SATA 接 口 的 硬盘 。 服 务 器 机 械 硬 盘 开 始 向 小 型 化 转型 ， 目 前 已 
经 有 大 量 2.5 寸 的 SAS 机 械 硬盘 。 

机 械 硬 盘 有 两 个 重要 的 指标 : 一 个 是 寻 道 时 间 ， 另 一 个 是 转速 。 当 前 服务 器 机 械 硬盘 
的 寻 道 时 间 已 经 能 够 达到 3ms， 转 速 为 15 000rpm。 传 统 机 械 硬 盘 最 大 的 问题 在 于 读 写 磁 头 ， 
读 写 磁 头 的 设计 使 得 硬盘 可 以 不 再 像 磁带 一 样 ， 只 能 进行 顺序 访问 ， 而 是 可 以 随机 访问 。 
但 是 ， 硬 盘 的 访问 需要 耗费 长 时 间 的 磁头 旋转 和 定位 来 查找 ， 因 此 顺序 访问 的 速度 远 远 高 
于 随机 访问 。 数 据 库 的 很 多 设计 也 都 是 在 尽量 充分 地 利用 顺序 访问 的 特性 。 

可 以 将 多 块 硬盘 组 成 RAID 来 提高 数据 库 的 性 能 ， 也 可 以 将 数据 文件 分 布 在 不 同 硬盘 上 
来 达到 访问 负载 的 均衡 。 


9.3.2 固态 硬盘 


固态 硬盘 ， 更 准确 地 说 是 基于 内存 的 固态 硬盘 ， 是 近 几 年 出 现 的 一 种 新 的 存储 设备 ， 
其 内 部 由 闪存 (Flash Memory) 组 成 。 因 为 内 存 的 低 延 迟 性 、 低 功 耗 以 及 防震 性 ， 所 以 内 
存 设备 已 在 移动 设备 上 得 到 了 广泛 的 应 用 。 企 业 级 应 用 一 般 使 用 固态 硬盘 ， 通 过 并 联 多 块 
闪存 来 进一步 提高 数据 传输 的 吞吐 量 。 传 统 的 存储 服务 提供 商 EMC 公 司 已 经 开始 提供 基于 
闪存 的 固态 硬盘 的 TB 级 别 存储 解决 方案 。 数 据 库 厂商 Oracle 公 司 最 近 也 开始 提供 绑 定 固态 
硬盘 的 Exadata 服 务 器 。 

不 同 于 传统 的 机 械 硬盘 ， 闪 存 是 一 个 完全 的 电子 设备 ， 没 有 传统 机 械 硬 盘 的 读 写 磁头 。 
因此 ， 固 态 硬盘 不 需要 像 传 统 机 械 硬 盘 一 样 ， 需 要 耗费 大 量 时 间 的 磁头 旋转 和 定位 来 查找 
数据 ， 所 以 固态 硬盘 可 以 提供 一 致 的 随机 访问 时 间 。 固 态 硬盘 这 种 对 数据 的 快速 读 写 和 定 
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位 特性 是 值得 研究 的 。 

男 一 方面 ， 内 存 中 的 数据 是 不 可 以 更 新 的 ， 只 能 通过 扇 区 (sector) 的 覆盖 重 写 ， 而 在 
覆盖 重 写 之 前 ,需要 执行 非常 耗 时 的 擦 除 (erase) 操作 。 控 除 操 作 不 能 在 所 含 数据 的 扇 区 
上 完成 ， 而 是 需要 控 除 整个 被 称 为 擦 除 块 的 基础 上 ， 这 个 控 除 块 的 尺寸 大 于 遍 区 的 大 小 ， 
通常 为 128KB。 此 外 ， 每 个 擦 除 块 有 擦 写 次 数 的 限制 。 已 经 有 一 些 算法 来 解决 这 个 问题 。 
但 是 对 于 数据 库 应 用 ， 需 要 认真 考虑 固态 硬盘 在 写 入 方面 存在 的 问题 。 

因为 存在 上 述 写 入 方面 的 问题 ， 内 存 提供 的 读 写 速度 是 非 对 称 的 。 读 取 速度 要 远 快 于 
写 入 的 速度 ， 因 此 对 于 固态 硬盘 在 数据 库 中 的 应 用 ， 应 该 好 好 利用 其 读 取 的 性 能 ， 避 免 过 
多 的 写 入 操作 。 

图 9-2 显 示 了 一 个 双 通 道 的 固态 硬盘 架构 ， 通 过 支持 4 路 的 内 存 交 又 存储 来 降低 固态 硬 
盘 的 访问 延 时 ， 同 时 增 大 并 发 的 读 写 操 作 。 通 过 进一步 增加 通道 的 数量 ， 固 态 硬 盘 的 性 能 
可 以 线性 地 提高 ， 如 我 们 常见 的 Intel X-25M 固 态 硬盘 就 是 10 通 道 的 固态 硬盘 。 


x16 | Memory 


Flash Memo | 
Flash 
SRAM Controller 

Controller Flash Memory | 


Flash Memory | 
Controller 
Flash Memory 


Memory 





图 9-2 双 通 道 的 固态 硬盘 架构 


因为 内 存 是 一 个 完全 的 电子 设备 ， 没 有 读 写 磁头 等 移动 部 件 ， 因 此 固态 硬盘 有 着 较 低 
的 访问 延 时 。 当 主机 发 布 一 个 读 写 请 求 时 ， 固 态 硬盘 的 控制 器 会 把 MO 命令 从 逻辑 地 址 映 
射 成 实际 的 物理 地 址 ， 写 操作 还 需要 修改 相应 的 映射 表 信息 。 算 上 这 些 额 外 的 开销 ， 固 态 
硬盘 的 访问 延 时 一 般 小 于 0.1ms 左 右 。 图 9-3 显 示 了 传统 机 械 硬 盘 、 内 存 、 固 态 硬盘 的 随机 
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访问 延 时 之 间 的 比较 : 








Memory {0 
2.5 SAS Disk 


SsD3 do. 

















| 
+ Lo + 4 
2 











图 9-3 国 态 硬盘 和 传统 机 械 硬盘 随机 访问 延 时 的 比较 


对 于 固态 硬盘 在 InnoDB 存 储 引 擎 中 的 优化 ， 可 以 增加 innodb_io_capacity 变 量 的 值 ， 以 
达到 充分 利用 固态 硬盘 带 来 的 高 IOPS 的 特性 。 同 时 也 可 以 通过 修改 源 代码 来 禁用 InnoDB 
存储 引擎 的 预 读 、 邻 接 页 的 写 人 特性 。 此 外 ， 还 可 以 使 用 我 开发 的 InnoDB Secondary 
Buffer PoolJFifipatch 9 ， 该 补丁 可 以 充分 利用 固态 硬盘 的 超 高 速 随机 读 取 性 能 ， 在 内 存 缓 
冲 池 和 传统 存储 层 之 间 建 立 一 层 基于 闪存 固态 硬盘 的 二 级 缓冲 池 ， 以 此 来 扩充 缓冲 池 的 容 
量 ， 提 高 数据 库 的 性 能 。 


9.4 合理 地 设置 RAID 


9.4.1 RAID 类 型 


RAID (Redundant Array of Independent Disks， 独 立 磁盘 宛 余数 组 ) 的 基本 思想 ， 就 
是 把 多 个 相对 便宜 的 硬盘 组 合 起 来 ， 成 为 一 个 磁盘 数组 ， 使 性 能 达到 其 至 超过 一 个 价格 昂 
贵 、 容 量 巨 大 的 硬盘 。 由 于 将 多 个 硬盘 组 合成 为 一 个 逻辑 遍 区 ，RAID 看 起 来 就 像 一 个 单 
A 


© 官网 地 址 : http:/code.google.com/p/david-mysql-tools/wiki/innodb_secondary_buffer_pool, 
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RAID 的 作用 是 : 

口 增强 数据 集成 度 

口 增强 容错 功能 

C) 增加 处 理 量 或 容量 

根据 不 同 磁 盘 的 组 合 方 式 ， 常 见 的 RAID 组 合 方式 可 分 为 RAID 0, RAID 1, RAID 5, 
RAID 10 和 RAID 50 等 。 

(1) RAID 0; 将 多 个 磁盘 合并 成 一 个 大 的 磁盘 ， 不 会 有 元 余 ， 并 行 1O， 速 度 最 快 。 
RAID 0 亦 称 为 带 区 集 ， 它 是 将 多 个 磁盘 并 列 起 来 ， 使 之 成 为 一 个 大 磁盘 。 在 存放 数据 时 ， 
其 将 数据 按 磁盘 的 个 数 来 进行 分 段 ， 然 后 同时 将 这 些 数据 写 进 这 些 盘 中 。 所 以 ， 在 所 有 的 
级 别 中 ，RAID 0 的 速度 是 最 快 的 。 但 是 RAID 0 没有 元 余 功 能 ， 如 果 一 个 磁盘 物理) 损 
坏 ,， 则 所 有 的 数据 都 会 丢失 。 理 论 上 ， 多 磁盘 的 效能 就 等 于 [单一 磁盘 效能 ]x[ 磁 盘 数 1]， 但 
实际 上 受 限于 总 线 O 撼 颈 及 其 他 因素 的 影响 ， 所 以 RAID 效 能 会 随 边际 递减 。 也 就 是 说 ， 
假设 一 个 磁盘 的 效能 是 50MB/ 秒 ， 两 个 磁盘 的 RAID 0 效能 约 96MB/ 秒 ， 三 个 磁盘 的 RAID 0 
也 许 是 130MB/ 秒 ， 而 不 是 150MB/ 秒 。 

(2) RAID 1; 两 组 以 上 的 N 个 磁盘 相互 作为 镜像 ， 在 一 些 多 线程 操作 系统 中 能 有 很 好 
的 读 取 速 度 ， 但 写 入 速度 略 有 降低 。 除 非 拥有 相同 数据 的 主 磁盘 与 镜像 同时 损坏 ， 否 则 只 
要 一 个 磁盘 正常 ， 即 可 维持 运作 ， 因 此 可 靠 性 最 高 。RAID 1 就 是 镜像 ， 其 原理 为 ， 在 主 硬 
盘 上 存放 数据 的 同时 也 在 镜像 硬盘 上 写 一 样 的 数据 。 当 主 硬盘 (物理 ) 损坏 时 ， 镜 像 硬盘 
则 代替 主 硬盘 的 工作 。 因 为 有 镜像 硬盘 做 数据 备份 ， 所 以 RAID 1 的 数据 安全 性 在 所 有 的 
RAID 级 别 中 是 最 好 的 。 但 是 ， 无 论 用 多 少 磁盘 ， 作 为 RAID 1， 仅 算 一 个 磁盘 的 容量 ， 所 
以 RAID1 是 所 有 RAID 中 磁盘 利用 率 最 低 的 一 个 级 别 。 

(3) RAID 5, 是 一 种 存储 性 能 、 数 据 安全 和 存储 成 本 兼顾 的 存储 解决 方案 。 它 使 用 的 
是 Disk Striping (硬盘 分 区 ) 技术 。RAID 5 至 少 需要 三 个 硬盘 ，RAID 5 不 对 存储 的 数据 进 
行 备份 ， 而 是 把 数据 和 相对 应 的 奇偶 校 验 信息 存储 到 组 成 RAID 5 的 各 个 磁盘 上 ， 并 且 奇 偶 
校 验 信息 和 相对 应 的 数据 分 别 存储 于 不 同 的 磁盘 上 。 当 RAID 5 的 一 个 磁盘 数据 发 生 损坏 后 ， 
利用 剩 下 的 数据 和 相应 的 奇偶 校 验 信息 去 恢复 被 损坏 的 数据 。RAID 5 可 以 理解 为 是 RAID 
0 和 RAID 1 的 折 中 方案 。RAID 5 可 以 为 系统 提供 数据 安全 保障 ， 但 保障 程度 要 比 镜像 低 ， 
而 磁盘 空间 利用 率 要 比 镜像 高 。RAID 5 具有 和 RAID 0 相近 似 的 数据 读 取 速 度 ， 只 是 多 了 
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一 个 奇偶 校 验 信息 ， 所 以 写 入 数据 的 速度 相当 慢 ， 若 使 用 Write Back 可 以 让 性 能 改善 不 少 。 
同时 ， 由 于 多 个 数据 对 应 一 个 奇偶 校 验 信息 ， 因 此 RAID 5 的 磁盘 空间 利用 率 要 比 RAID 1 
高 ， 存 储 成 本 相对 较 低 。 

(4) RAID 10 和 RAID 01; RAID 10 是 先 镜 射 ， 再 分 区 数据 。 它 将 所 有 硬盘 分 为 两 组 ， 
视 为 RAID 0 的 最 低 组 合 ， 然 后 将 这 两 组 各 自视 为 RAID 1 运作 。RAID 10 有 着 不 错 的 读 取 速 
度 ， 而 且 拥 有 比 RAID 0 更 高 的 数据 保护 性 。RAID 01 则 与 RAID 10 的 程序 相反 ， 是 先 分 区 ， 
再 将 数据 镜 射 到 两 组 硬盘 。 它 将 所 有 的 硬盘 分 为 两 组 ， 变 成 RAID 1 的 最 低 组 合 ， 而 将 两 组 
硬盘 各 自视 为 RAID 0 运作 。 RAID 01 比 起 RAID 10 有 着 更 快 的 读 写 速度 ， 不 过 也 多 了 一 些 
会 让 整个 硬盘 组 停止 运转 的 概率 : 因为 只 要 同一 组 的 硬盘 全 部 损毁 ，RAID 01 就 会 停止 运 
作 ， 而 RAID 10 则 可 以 在 牺牲 RAID 0 的 优势 下 正常 运作 。RAID 10 巧 妙 地 利用 了 RAID 0 的 
速度 以 及 RAID 1 的 安全 (保护 ) 两 种 特性 ， 它 的 缺点 是 需要 较 多 的 硬盘 ， 因 为 至 少 必 须 拥 
有 4 个 以 上 的 偶数 硬盘 才能 使 用 。 

(5) RAID 50; RAID 50 也 被 称 为 镜像 阵列 条 带 ， 由 至 少 6 块 硬盘 组 成 ， 像 RAID 0 一 样 ， 
REED RMA, ERIN AAR SREB SA, RAID 5 一 样 ，RAID 50 也 是 以 数据 
的 校 验 位 来 保证 数据 的 安全 ， 且 校 验 条 带 均匀 分 布 在 各 个 磁盘 上 ， 其 目的 在 于 提高 RAID 5 

对 于 数据 库 应 用 来 说 , RAID 10 是 最 好 的 选择 ， 它 同时 兼顾 了 RAID 1 和 RAID 0 的 特性 。 
但 是 ， 当 一 个 磁盘 失效 时 ， 性 能 可 能 会 受到 很 大 的 影响 ， 因 为 条 带 (strip) 会 成 为 瓶颈 。 
我 曾 在 生产 环境 下 遇 到 过 这 样 的 情况 ，2 台 负载 基本 相同 的 数据 库 ， 一 台 正常 的 服务 器 磁 
盘 IO 负 载 为 20% 左 右 ， 而 另 一 台 服 务 器 IO 负载 却 高 达 90 多 。 


9.4.2 RAID Write Back 功 能 


RAID Write Back 功 能 是 间 RAID 控 制 器 能 够 将 写 人 的 数据 放 入 自身 的 缓存 中 ， 并 把 它们 
安排 到 后 面 再 执行 。 这 样 做 的 好 处 是 ， 不 用 等 待 物理 磁盘 实际 写 人 的 完成 ， 因 此 写 人 变 得 
更 快 了 。 对 于 数据 库 来 说 ， 这 显得 十 分 重要 。 例 如 ， 对 重 做 日 志 的 写 入 、 在 将 sync_binlog 
设 为 1 的 情况 下 二 进 制 日 志 的 写 人 、 脏 页 的 刷新 等 ， 这 些 都 可 以 使 性 能 明显 的 提升 。 

但 是 ， 如 果 系 统 发 生意 外 ，Write Back 功 能 可 能 会 破坏 数据 库 的 数据 ， 因 为 缓存 可 能 
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还 在 RAID 卡 中 ， 这 样 磁盘 并 没有 写 入 时 故障 就 发 生 了 。 对 此 ， 大 部 分 的 硬件 RAID 卡 都 提 
供 了 电池 备份 单元 (BBU, Battery Backup Unit)， 因 此 可 以 放心 地 开启 Write Back 的 功能 。 
不 过 我 发 现 ， 每 台 服 务 器 的 出 三 设 置 都 是 不 同 的， 应 该 将 你 的 RAID 设 置 要 求 告知 服务 器 
提供 商 ， 开 启 一 些 你 认为 需要 的 参数 。 

如 果 没 有 启用 Write Back 功 能 ， 那 么 在 RAID 卡 设置 中 显示 的 就 是 Write Through, 
"Write Through 没 有 缓冲 写 信 ， 因 此 写 入 性 能 可 能 不 是 很 好 ， 但 它 的 确 是 最 安全 的 写 和 人 。 

即使 开启 了 Write Back 功 能 ，RAID 卡 也 可 能 只 是 启用 了 Write Through， 因 为 之 前 提 到 
过 ， 安 全 使 用 Write Back 的 前 提 是 RAID 卡 有 电池 备份 单元 。 为 了 确保 电池 的 有 效 性 ， 
RAID 卡 会 定期 检查 电池 状态 ， 并 在 电池 电量 不 足 时 对 其 充电 ， 在 充电 的 这 段 时 间 内 ， 会 
将 Write Back 功 能 切换 为 最 为 安全 的 Write Through, 

你 可 以 在 没有 电池 备份 单元 的 情况 下 强制 启用 Write Back 功 能 ， 也 可 以 在 电池 充电 时 
强制 使 用 Write Back 功 能 。 只 是 写 入 是 不 安全 的 ， 你 应 该 非常 确信 这 点 ， 否 则 不 应 该 在 没 
有 电池 备份 单元 的 情况 下 启用 Write Back, 

可 以 通过 插入 20W 的 记录 来 比较 Write Back 和 Write Through 的 性 能 差异 : 


mysql» create table t ( a char(2))engine-innodb; 


Query OK, 0 rows affected (0.00 sec) 


mysql» delimiter // 
mysql> 
mysql> create procedure p() 
-> begin 
-> declare v int; 
-> set v=0; 
-> while v<200000 do 
一 > insert into t values('aa'); 
-> set v=v+1; 
-> end while; 


-> end 


-> // . 
Query OK, 0 rows affected (0.12 sec) 


mysql> delimiter ; 


我 们 创建 了 一 个 往 t 表 插入 20 万 条 记录 的 存储 过 程 ， 并 在 Write Back 和 Write Through 
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设置 下 分 别 进行 测试 ， 测 试 结果 如 表 9-1 所 示 : 


表 9-1 
RAID 卡 设置 时 间 
Write Back 437 
Write Through 312b 
Write Through with innodb, flush, log. at trx commit-0 68$» 


我 们 的 测试 不 是 在 一 个 事务 中 ， 而 是 直接 用 命令 CALL P 来 运行 的 ， 因 此 数据 库 实际 执 
行 了 20 万 次 的 事务 。 很 明显 可 以 看 到 ， 在 Write Back 模 式 下 执行 时 间 只 需要 43 秒 ， 而 在 
Write Through 模 式 下 执行 时 间 需 要 31 分 钟 ， 大 约 是 40 多 倍 的 差距 。 

当然 ， 在 Write Through 模 式 下 ， 通 过 将 参数 innodb_flush_log_at_trx_commit 设 置 为 0 也 
可 以 提高 执行 存储 过 程 P 的 性 能 ， 这 时 只 需要 68 秒 了 。 因 为 在 此 设置 下 ， 重 做 日 志 的 写 入 
不 是 发 生 在 每 次 事务 提交 时 ， 而 是 发 生 在 后 台 master 线 程 每 秒 钟 自动 刷新 的 时 候 ， 因 此 减 
少 了 物理 磁盘 的 写 人 请 求 ， 所 以 执行 速度 也 有 明显 的 提高 。 


9.4.3 RAID 配置 工具 


RAID 卡 的 配置 可 以 在 服务 器 启动 时 进入 一 个 类 似 于 BIOS 的 配置 界面 ， 然 后 再 对 其 进 
行 各 种 设置 。 此 外 ， 很 多 厂商 都 开发 了 各 种 操作 系统 下 的 软件 来 进行 RAID 卡 的 配置 ， 如 
果 你 使 用 的 是 LSI 公 司 生产 提供 的 RAID 卡 ， 则 可 以 使 用 MegaCLI 工 具 进 行 配置 。 

MegaCLI 为 多 个 操作 系统 提供 了 支持 ， 在 Windows 下 还 提供 了 GUI 界面 的 配置 ， 相 对 来 
说 比较 简单 。 这 里 我 们 主要 介绍 命令 行 下 MegaCLI 的 使 用 ，Windows 下 可 以 使 用 MegaCLI. 
exe 程 序 。 

使 用 MegaCLI 查 看 RAID 卡 的 信息 : 


[rootéxen-server ~]# /opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -a0 


Adapter #0 

Versions 
Product Name : MegaRAID SAS 8708ELP 
Serial No : P012233608 
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FW Package Build: 9.0.1-0030 


HW Configuration 


SAS Address : 500605b000d1e180 
BBU : Present 
Alarm : Present 
NVRAM : Present 


Serial Debugger : Present 


Memory : Present 
Flash : Present 
Memory Size : 256MB 

TPM : Absent 


Default Settings 


Phy Polarity : 0 

Phy PolaritySplit : 240 
Background Rate : 30 
Stripe Size : 64kB 
Flush Time : 4 seconds 
Write Policy : WB 

Read Policy : None 
Cache When BBU Bad : Disabled 
Cached IO : No 

SMART Mode : Mode 6 
Alarm Disable : Yes 
Coercion Mode : 1GB 

ZCR Config : Unknown 
Dirty LED Shows Drive Activity : No 

BIOS Continue on Error : No 

Spin Down Mode : None 
Allowed Device Type : SAS/SATA Mix 
Allow Mix in Enclosure : Yes 
Allow HDD SAS/SATA Mix in VD : Yes 
Allow SSD SAS/SATA Mix in VD : No 
Allow HDD/SSD Mix in VD : No 
Allow SATA in Cluster : No 

Max Chained Enclosures : 3 
Disable Ctrl-R : Yes 
Enable Web BIOS : Yes 
Direct PD Mapping : No 


BIOS Enumerate VDs Yes 
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Restore Hot Spare on Insertion : No 
Expose Enclosure Devices : Yes 
Maintain PD Fail History : Yes x 
Disable Puncturing : No 


Zero Based Enclosure Enumeration : No 


PreBoot CLI Enabled : Yes 

LED Show Drive Activity : No 

Cluster Disable : Yes 

SAS Disable : No 

Auto Detect BackPlane Enable : SGPIO/i2c SEP 
Use FDE Only : No 

Enable Led Header : No 

Delay during POST : 0 


出 于 排版 的 原因 ， 这 里 我 只 列 出 了 输出 的 一 小 部 分 。 用 过 上 述 命令 ， 可 以 看 到 RAID 卡 
的 一 些 硬件 设置 ， 如 这 块 RAID 卡 的 型 号 是 MegaRAID SAS 8708ELP, 缓存 大 小 是 256MB， 
一 些 默认 的 配置 ， 如 软 认 启用 的 Write Policy 为 WB (Write Back) 等 。 

MegaCLI 还 可 以 用 来 查看 当前 物理 磁盘 的 信息 ， 如 : 


[root@xen-server ~]# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL 
Adapter #0 


Enclosure Device ID: 252 

Slot Number: 0 

Device Id: 8 

Sequence Number: 2 

Media Error Count: 0 

Other Error Count: 0 

Predictive Failure Count: 0 

Last Predictive Failure Event Seq Number: 0 

PD Type: SAS 

Raw Size: 279.396 GB [0x22ecb25c Sectors] 

Non Coerced Size: 278.896 GB [0x22dcb25c Sectors] 
Coerced Size: 278.464 GB [0x22cee000 Sectors] 
Firmware state: Online 

SAS Address(0): 0x5000c5000£363b55 

SAS Address(1): 0x0 

Connected Port Number: 0(path0) 

Inquiry Data: SEAGATE ST3300655SS 00023LM5MGZZ 
FDE Capable: Not Capable 

FDE Enable: Disable 
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Secured: Unsecured 

Locked: Unlocked 

Foreign State: None 

Device Speed: Unknown 

Link Speed: Unknown 

Media Type: Hard Disk Device 


可 以 看 到 当前 使 用 的 磁盘 型 号 是 SEAGATE ST3300655SS。 你 可 以 从 这 个 型 号 继续 找 
到 这 个 硬盘 的 具体 信息 ， 如 在 希捷 官网 http://discountechnology.com/Seagate- 
ST3300655SS-SAS-Hard-Drive 上 可 以 知道 ， 这 块 硬盘 大 小 是 3.5 寸 的 ， 转 速 为 15 000， 硬 盘 
的 Cache 为 16MB ， 随 机 读 取 的 寻 道 时 间 是 3.5 毫 秒 ， 随 机 写 人 的 寻 道 时 间 是 4.0 毫 秒 等 。 

可 以 通过 下 面 的 命令 来 查看 是 否 开启 了 Write Back 功 能 : 


[rootéxen-server ~]# /opt/MegaRAID/MegaCli/MegaCli64  -LDGetProp -Cache -LALL -aALL 


Adapter 0-VD 0(target id: 0): Cache Policy:WriteBack, ReadAheadNone, Direct, No 


Write Cache if bad BBU 
Adapter 0-VD l(target id: 1): Cache Policy:WriteBack, ReadAheadNone, Direct, No 


Write Cache if bad BBU 


Exit Code: 0x00 


可 以 看 到 当前 开启 了 Write Back 功 能 ， 并 且 当 BBU 有 问题 时 或 者 在 充电 时 禁用 Write 
Back 功 能 。 这 里 还 显示 了 不 需要 启用 RAID 卡 的 预 读 功 能 ， 写 入 为 直接 写 和 方式 。 
通过 下 面 的 命令 可 以 对 当前 的 写 和 策略 进行 调整 : 


#/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp WB -LALL -aALL 
#/opt/MegaRAID/Megacli/MegaCli64 -LDSetProp WT -LALL -aALL 


注意 ; 当 写 入 策略 从 Write Back 切 换 为 Write Through, ALA x Pp E, BR 
从 Write Throughig4& # Write Back 时 ， 必 须 重 启 服务 器 才能 使 其 生效 。 


9.5 操作 系统 的 选择 也 很 重要 


Linux 是 MySQL 数 据 库 服务 器 中 最 常见 的 操作 系统 。 与 其 他 操作 系统 不 同 的 是 ，Linux 
有 着 众多 的 发 行 版 本 ， 可 能 每 个 人 的 偏好 都 不 相同 。 但 是 ， 在 将 Linux 操 作 系 统 作为 数据 
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库 服务 器 时 ， 需 要 考虑 更 多 的 是 操作 系统 的 稳定 性 ， 而 不 是 新 特性 。 

除了 Linux 操 作 系 统 外 ，FreeBSD 也 是 另 一 个 常见 的 操作 系统 。 之 前 版 本 的 FreeBSD 对 
MySQL 数 据 库 支持 得 不 是 很 好 ， 需 要 选择 单独 的 线程 库 进 行 手动 编译 ,但 是 新 版 本 的 
FreeBSD 对 MySQL 数 据 库 的 支持 已 经 好 了 很 多 ， 直 接 下 载 二 进 制 安装 包 即 可 。 

Solaris 之 前 是 基于 SPARC 硬 件 的 操作 系统 ， 现 在 已 经 移植 到 了 X86 平台 上 。Solaris 是 
高 性 能 、 高 可 靠 性 的 操作 系统 ， 同 时 其 提供 的 ZFS 文 件 系统 非常 适合 MySQL 的 数据 库 应 用 。 
如 果 需 要 ， 你 可 以 尝试 它 的 开源 版 本 Open Solaris, 

Windows 在 MySQL 的 数据 库 应 用 中 也 非常 常见 。 也 有 的 公司 喜欢 在 开发 环境 下 使 用 
Windows 版 本 的 MySQL， 到 正式 生产 环境 下 使 用 Linux。 这 本 身 没 有 什么 问题 ， 但 问题 通 
常 发 生 于 大 小 写 敏感 方面 。Windows 下 表 名 不 区 分 大 小 写 ， 而 Linux 操 作 系 统 却 是 大 小 写 敏 
感 的 ， 这 点 在 开发 阶段 需要 特别 注意 。 

4GB 内 存在 当前 已 经 非常 普遍 了 ， 即 使 是 桌面 用 户 也 开始 使 用 8GB 的 内 存 。 为 了 可 以 
更 好 地 使 用 大 于 4GB 的 内 存 容 量 ， 必 须 使 用 64 位 的 操作 系统 ， 上 述 介 绍 的 这 些 操作 系统 都 
提供 了 64 位 的 版 本 。 此 外 ， 使 用 64 位 的 操作 系统 还 必须 使 用 64 位 的 软件 。 这 听 上 去 是 句 废 
话 ， 但 是 我 多 次 看 到 32 位 的 MySQL 数 据 库 安装 在 64 位 的 系统 上 ， 而 这 样 会 导致 不 能 充分 
发 挥 64 位 操作 系统 的 寻 址 能 力 。 


9.6 不 同 的 文件 系统 对 数据 库 性 能 的 影响 


每 个 操作 系统 都 默认 支持 一 种 文件 系统 并 推荐 用 户 使 用 ， 如 Windows 默 认 支 持 NTFS ， 
Solaris 默 认 支 持 ZFS。 而 对 于 Linux 这 样 的 操作 系统 ， 不 同 发 行 版 本 默认 支持 的 文件 系统 又 
各 不 相同 ， 有 的 默认 支持 EXT3， 有 的 是 ReiserFS， 有 的 是 EXT4， 有 的 是 XFS。 

虽然 有 着 很 多 不 同 特性 的 文件 系统 ， 但 是 我 在 实际 使 用 过 程 中 从 未 感觉 到 文件 系统 的 
性 能 差异 有 多 大 。 网 上 有 多 个 关于 XFS 文件 系统 的 “神话 ”， 认 为 其 是 多 么 适合 数据 库 应 
用 ， 性 能 较 之 EXT3 有 极 大 的 提升 。 但 是 我 在 实际 测试 和 使 用 后 发 现 ， 它 的 性 能 和 EXT3 在 
整体 上 没有 大 的 差距 。 因 此 ，DBA 应 该 把 更 多 的 注意 力 放 到 数据 库 上 面 ， 而 不 是 纠结 于 文 
件 系统 。 

文件 系统 可 提供 的 功能 也 许 是 DBA 需 要 关注 的 ， 例 如 ZFS 文 件 系统 本 身 就 可 以 支持 快 
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照 ， 因 此 就 不 需要 LVM 这 样 的 逻辑 卷 管理 工具 。 此 外 ， 可 能 还 需要 知道 mount 的 参数 ， 这 
些 参数 在 每 个 文件 系统 中 又 可 能 有 所 不 同 。 


9.7 选择 合适 的 基准 测试 工具 


基准 测试 工具 可 以 用 来 对 数据 库 或 者 操作 系统 调 优 后 的 性 能 进行 对 比 。MySQL 数 据 库 
本 身 提 供 了 一 些 比较 优秀 的 工具 ， 这 里 将 介绍 另外 两 款 更 优秀 、 更 常用 的 工具 : sysbench 
和 mysql-tpcc。 


9.7.1 sysbench 


sysbench 是 一 个 模块 化 的 、 跨 平台 的 、 多 线程 基准 测试 工具 ， 主 要 用 于 测试 各 种 不 同 
系统 参数 下 的 数据 库 负载 情况 。 它 主要 包括 以 下 几 种 测试 方式 : 

DCcPU 性 能 。 

口 磁盘 IO 性 能 。 

口 调度 程序 性 能 。 

口 内 存 分 配 及 传输 速度 。 

口 POSIX 线 程 性 能 。 

C 数据库 OLTP 基 准 测试 。 

sysbench 的 数据 库 OLTP 测 试 支持 MySQL、PostgreSQL 和 Oracle。 目 前 sysbench 主 要 用 
于 Linux 操 作 系 统 ， 开 源 社 区 已 经 将 sysbench 移 植 到 Windows， 并 支持 对 Microsoft SQL 
Server 数 据 库 的 测试 。 . 

sysbench 的 官网 地 址 是 : http://sysbench.sourceforge.net， 可 以 从 上 述 地 址 下 载 最 新 版 
本 的 sysbench 工 具 ， 然 后 编译 和 安装 。 此 外 ， 有 些 Linux 操 作 系统 发 行 版 本 (如 RED HAT), 
可 能 本 身 已 经 提供 了 sysbench 的 安装 包 ， 直 接 安装 即 可 。 

sysbench 可 以 通过 不 同 的 参数 设置 来 进行 不 同 项 目的 测试 ， 使 用 方法 如 下 所 示 : 


[rootéxen-server ~]# sysbench 
Missing required command argument. 
Usage: 
sysbench [general-options]... --test-«test-name» [test-options]... command 
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General options: 


--num-threads=N number of threads to use [1] 
--max-requests=N limit for total number of requests [10000] 
--max-time=N limit for total execution time in seconds [0] 


--thread-stack-size=SIZE size of stack per thread [32K} 


--init-rng-[on|off] initialize random number generator [off] 
--test-STRING test to run 

--debug=[on|off] print more debugging info [off] 
--validate=[on|off] perform validation checks where possible [off] 
--help=[on|off] print help and exit 

--version={on|off] print version and exit 


Compiled-in tests: 
fileio - File I/O test 
cpu - CPU performance test 
memory - Memory functions speed test 
threads - Threads subsystem performance test 
mutex - Mutex performance test 


oltp - OLTP test 
Commands: prepare run cleanup help version 


See 'sysbench --test=<name> help' for a list of options for each test. 


对 于 InnoDB 存 储 引擎 的 数据 库 应 用 来 说 ， 我 们 可 能 更 关心 的 是 磁盘 和 OLTP 的 性 能 ， 
因此 主要 测试 fleio 和 oltp 这 两 个 项 目 。 对 于 磁盘 的 测试 ，sysbench 提 供 了 以 下 的 测试 选项 ; 


[root@xen-server ~]# sysbench --test-fileio help 


sysbench 0.4.10: multi-threaded system evaluation benchmark 


fileio options: 


--file-num-N number of files to create [128] 
--file-block-sizezN block size to use in all IO operations [16384] 
--file-total-size-SIZE total size of files to create [2G] 
--file-test-mode=STRING test mode (seqwr, seqrewr, seqrd, rndrd, rndwr, rndrw} 
--file-io-mode-STRING file operations mode (sync,async,fastmmap,slowmmap) [sync] 
--file-extra-flags-STRING additional flags to use on opening files 
(sync,dsync,direct) [] 
--file-fsync-freq-N do fsync() after this number of requests (0 - 
don't use fsync()) [100] 
--file-fsync-all=[on|off] do fsync() after each write operation [off] 
--file-fsync-end=[on|off] do fsync() at the end of test [on] 
--file-fsync-mode=STRING which method to use for synchronization {fsync, 


fdatasync} [fsync] 
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--file-merged-requests=N merge at most this number of IO requests if 
possible (0 - don't merge) [0] 


--file-rw-ratio-N reads/writes ratio for combined test [1.5] 


各 个 参数 的 含义 如 下 所 示 : 

口 --file-num: 生成 测试 文件 的 数量 ， 默 认为 128。 

口 --file-block-size: 测试 期 间 文件 块 的 大 小 ， 如 果 你 想 磁盘 针对 InnoDB 存 储 引 区 进行 
测试 ， 可 以 将 其 设置 为 16384， 即 InnoDB 存 储 引擎 页 的 大 小 。 默 认为 16 384, 

口 --file-total-size; 每 个 文件 的 大 小 ， 软 认为 2GB 。 

Q--file-test-mode; 文件 测试 模式 ， 包 含 seqwr (mf), segrewr (顺序 读 写 )、 
seqrd (顺序 读 )、rndrd (随机 读 )、mdwr (随机 写 ) 和 rndrw (随机 读 写 )。 

Q--file-io-mode; 文件 操作 的 模式 ， 同 步 还 是 异步 ， 或 者 选择 MMAP (map 映 射 ) & 
式 。 默 认为 同步 。 

C] -- file-extra-flags: 打开 文件 时 的 选项 ， 这 是 与 API 相 关 的 参数 。 

口 --file-fsync-freq; 执行 fsync 函 数 的 频率 。fsync 主 要 是 同步 磁盘 文件 ， 因 为 可 能 有 系 
统 和 磁盘 缓冲 的 关系 。 

口 --file-fsync-all: 每 执行 完 一 次 写 操作 ， 就 执行 一 次 fsync。 默 认为 off。 

Q--file-fsync-end; 在 测试 结束 时 执行 fsync。 默 认为 on。 

口 --file-fsync-mode: 文件 同步 函数 的 选择 ， 同 样 是 和 API 相 关 的 参数 ， 由 于 多 个 操作 
系统 对 于 fdatasync 支 持 的 不 同 ， 因 此 不 建议 使 用 fdatasync。 默 认为 fsync。 

口 --file-rw-ratio: 测试 时 的 读 写 比例 ， 默 认 时 读 写 2:1。 

sysbench 的 fileio 测 试 需要 经 过 prepare、run 和 clean 三 个 阶段 。prepare 是 准备 阶段 ， 生 

产 我 们 需要 的 测试 文件 ，run 是 实际 测试 阶段 ，cleanup 是 清理 测试 产生 的 文件 。 如 我 们 进 
行 16 个 文件 、 总 大 小 2GB 的 fileio 测 试 ， 


[root@xen-server ssd]# sysbench --test-fileio --file-num=16 --file-total-size-2G prepare 


sysbench 0.4.10: multi-threaded system evaluation benchmark 


16 files, 131072Kb each, 2048Mb total 
Creating files for the test... 


接着 在 相应 的 目录 下 就 会 产生 16 个 文件 了 ， 因 为 总 大 小 是 2GB ， 所 以 每 个 文件 的 大 小 
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应 该 是 128MB : 


[root@xen-server ssd]# ls -lh 


total 2G 

-YW------- 1 root root 128M Aug 12 10:42 test file.0 

-YW------- 1 root root 128M Aug 12 10:42 test file.l 

-TIW------- 1 root root 128M Aug 12 10:42 test file.10 
-rwW------- 1 root root 128M Aug 12 10:42 test file.11 
-rw------- 1 root root 128M Aug 12 10:42 test file.12 
-rw------- 1 root root 128M Aug 12 10:42 test file.13 
TYW------- 1 root root 128M Aug 12 10:42 test file.14 
-rw------- 1 root root 128M Aug 12 10:42 test file.15 
-rw------- 1 root root 128M Aug 12 10:42 test file.2 

-rW------- 1 root root 128M Aug 12 10:42 test file.3 

-TIW------- 1 root root 128M Aug 12 10:42 test file.4 

-rw------- 1 root root 128M Aug 12 10:42 test file.5 

-rw------- 1 root root 128M Aug 12 10:42 test file.6 

-rw------- 1 root root 128M Aug 12 10:42 test file.7 

-rw------- 1 root root 128M Aug 12 10:42 test file.8 

-YwW------- 1 root root 128M Aug 12 10:42 test file.9 


接着 就 可 以 基于 这 些 文件 进行 测试 了 ， 下 面 是 在 16 个 线程 下 的 随机 读 取 性 能 : 
[root@xen-server ssd]# sysbench --test-fileio --file-total-size-2G --file-test- 


mode=rndrd--max-time=180--max-requests=100000000 --num-threads-16. --init-rng-on -- 
file-num-16 --file-extra-flags-direct --file-fsync-freq-0 --file-block-size-16384 run 


ERR AAPL EARL 100 000 000 次 ， 如 果 在 180 秒 内 不 能 完成 ， 测 试 即 结 
测试 结束 后 可 以 看 到 如 下 的 测试 结果 ， 


[rootéxen-server ssd]# sysbench :--test=fileio --file-total-size-2G --file-test- 
mode-rndrd--max-time-180 --max-requests-100000000 --num-threads-16 --init-rng-on -- 
file-num-16 --file-extra-flags-direct --file-fsync-freq-0 --file-block-size-16384 run 


sysbench 0.4.10: multi-threaded system evaluation benchmark 


Running the test with following options: 
Number of threads: 16 


Initializing random number generator from timer. 


Extra file open flags: 16384 
16 files, 128Mb each 

2Gb total file size 

Block size 16Kb 


Number of random requests for random IO: 100000000 
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Read/Write ratio for combined random IO test: 1.50 
Calling fsync() at the end of test, Enabled. 

Using synchronous I/O mode 

Doing random read test 

Threads started! 

Time limit exceeded, exiting... 

(last message repeated 15 times) 


Done. 


Operations performed: 619908 Read, 0 Write, 0 Other = 619908 Total 
Read 9.459Gb Written 0b Total transferred 9.459Gb (53.81Mb/sec) 
3443.85 Requests/sec executed 


Test execution summary: 
total time: 180.0044s 
total number of events: 619908 
total time taken by event execution: 2878.0750 


per-request statistics: 


min: 0.42ms 
avg: 4.64ms 
max: 27.30ms 
approx. 95 percentile: 8.13ms 


Threads fairness: 
events (avg/stddev): 38744.2500/102.69 
execution time (avg/stddev): 179.8797/0.00 


可 以 看 到 随机 读 取 的 性 能 为 53.81MB/sec， 随 机 读 的 IOPS 为 3443.85。 测 试 的 硬盘 是 固 
态 硬盘 ， 因 此 随机 读 取 的 性 能 较为 强劲 。 此 外 还 可 以 看 到 每 次 请 求 的 一 些 具体 数 据 ， 如 最 
大 值 、 最 小 值 、 平 均值 等 。 

测试 结束 后 ， 记 得 要 执行 clean， 以 确保 测试 所 产生 的 文件 都 已 删除 : 


[root@xen-server ssd]# sysbench --test-fileio --file-num-16 --file-total-size-2G cleanup 


sysbench 0.4.10: multi-threaded system evaluation benchmark 


Removing test files... 


可 能 你 需要 测试 随机 读 、 随 机 写 、 随 机 读 写 、 顺 序 写 、 顺 序 读 等 所 有 这 些 模式 ， 并 且 
还 可 能 需要 测试 不 同 的 线程 和 不 同文 件 块 下 磁盘 的 性 能 表现 ， 这 时 你 可 能 需要 类 似 如 下 的 
脚本 来 帮 你 自动 完成 这 些 测试 ， 0 

#!/bin/sh 
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set -u 
set -x 
set -e 


for size in 8G 64G; do 

for mode in seqrd seqrw rndrd rndwr rndrw; do 

for blksize in 4096 16384 ; do 

sysbench --test-fileio --file-num-64 --file-total-size-$size prepare 

for threads in 1 4 8 16 32; do 

echo "====== testing $blksize in $threads threads" 

echo PARAMS $size $mode $threads $blksize» sysbench-size-$size-mode-$mode- 
threads-$threads-blksz-$blksize 

for i in 1 2 3 ; do 

sysbench --test-fileio --file-total-size-$size --file-test-mode=$mode\ 
--max-time=180 --max-requests=100000000 --num-threads=$threads --init-rng=on \ 
--file-num=64 --file-extra-flags-direct --file-fsync-freq-0 --file-block- 
size-$blksize run \ 

| tee -a sysbench-size-$size-mode-$mode-threads-$threads-blksz-$blksize 2>&1 
done 

done 

sysbench --test-fileio --file-total-size-$size cleanup 

done 

done 

done 


对 于 mysql 的 OLTP 测 试 ， 和 fileio 一 样 ， 同 样 需要 经 历 prepare、run 和 cleanup 的 阶段 。 
prepare 阶 段 会 根据 选项 产生 一 张 指定 行 数 的 表 ， 默 认 表 在 sbtest 架 构 下 ， 表 名 为 sbtest 
(sysbench 默 认 生 成 表 的 存储 引擎 为 InnoDB ) ， 如 创建 一 张 有 8000 万 条 记录 的 表 : 


[rootéxen-server ~]# sysbench --test-oltp --oltp-table-size- 80000000 --db- 
driver-mysql  --mysql-socket-/tmp/mysql.sock --mysql-user-root prepare 
sysbench 0.4.10: multi-threaded system evaluation benchmark 


Creating table 'sbtest'... 
Creating 80000000 records in table 'sbtest'... 


接着 就 可 以 根据 产生 的 表 进行 oltp 的 测试 : 

sysbench --test-oltp --oltp-table-size-80000000 --oltp-read-only-off --init- 
rng=on --num-threads-16 --max-requests=0 --oltp-dist-type-uniform --max-time-3600 
--mysql-user-root --mysql-socket-/tmp/mysql.sock --db-driver=mysql run > res 


我 们 将 测试 结果 放 入 了 文件 res 中 ， 查 看 res 可 得 到 类 似 如 下 的 结果 : 


sysbench70.4.10: multi-threaded system evaluation benchmark 
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WARNING: Preparing of "BEGIN" is unsupported, using emulation 
(last message repeated 15 times) 

Running the test with following options: 

Number of threads: 16 


Initializing random number generator from timer. 


Doing OLTP test. 

Running mixed OLTP test 

Using Uniform distribution 

Using "BEGIN" for starting transactions 
Using auto inc on the id column 

Threads started! 

Time limit exceeded, exiting... 

(last message repeated 15 times) 

Done. 


OLTP test statistics: 


queries performed: 


read: 6043324 

write: 2158330 

other: 863332 

total: 9064986 
transactions: 431666 (119.90 per sec.) 
deadlocks: 0 (0.00 per sec.) 
read/write requests: 8201654 (2278.07 per sec.) 
other operations: 863332 (239.80 per sec.) 


Test execution summary: 
total time: 3600.2672s 
total number of events: 431666 
total time taken by event execution: 57598.5965 


per-request statistics: 


min: 6.84ms 
avg: 133.43ms 
max: 7155.61ms 
approx. 95 percentile: 325.84ms 


Threads fairness: 
events (avg/stddev): 26979.1250/64.14 
execution time (avg/stddev): 3599.9123/0.06. 


结果 中 罗列 出 了 测试 时 很 多 操作 的 详细 信息 ，transactions 代 表 了 测试 结果 的 评判 标准 ， 
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即 TPS ， 上 述 测试 的 结果 是 119.9tps。 你 可 以 对 数据 库 进行 调 优 后 再 运行 sysbench 的 oltp 测 
试 ， 看 看 tps 是 否 有 所 提高 。 注 意 ，sysbench 的 测试 只 是 基准 测试 ， 并 不 代表 实际 企业 环境 
下 的 性 能 指标 。 


9.7.2 mysgl-tpcc 


TPC (Transaction Processing Performance Council， 事 务 处 理性 能 协会 ) 是 一 个 评价 大 
型 数据 库 系统 软 硬 件 性 能 的 非 恒 利 组 织 。TPC-C 是 TPC 协 会 制定 的 ， 用 来 测试 典型 的 复杂 
OLTP (在 线 事务 处 理 ) 系统 的 性 能 。 目 前 ， 在 学 术 界 和 业界 ， 普 遍 采 用 TPC-C 来 评价 
OLTP 应 用 的 性 能 。 

TPC-C 用 3NF (第 三 范式 ) 虚拟 实现 了 一 家 仓库 销售 供应 商 公司 ， 拥 有 一 批 分 布 在 不 
同 地 方 的 仓库 和 地 区 分 公司 。 当 公司 业务 扩大 时 ， 将 建立 新 的 仓库 和 地 区 分 公司 。 通 党 
个 仓库 供 货 履 盖 10 家 地 区 分 公司 ， 每 个 地 区 分 公司 服务 3000 名 客户 。 该 公司 共有 100 000 种 
商品 ， 分 别 储存 在 各 个 仓库 中 。 该 系统 包含 了 库存 管理 、 销 售 、 分 发 产品 、 付 款 、 订 单 查 
询 等 一 系列 操作 ， 一 共 包 含 了 9 个 基本 关系 ， 基 本 关系 图 如 图 9-4 所 示 。 

TPC-C 的 性 能 度量 单位 是 tpmC，tpm 是 transaction per minute 的 缩写 ，C 代 表 TPC 的 C 基 
准 测 试 。 该 值 越 大 ， 代 表 事务 处 理 的 性 能 越 高 。 

tpcc-mysq] 是 开源 的 TPC-C 测 试 工具 ， 该 测试 工具 完全 遵守 TPC-C 的 标准 。 其 官方 网 站 
X: https://code.launchpad.net/~percona-dev/perconatools/tpcc-mysql。 之 前 tpcc-mysql 主 要 
工作 在 Linux 操 作 系 统 上 ， 我 已 经 将 其 移植 到 了 Windows 平 台 ， 可 以 在 http://code.google. 
com/p/david-mysql-tools/downloads/list 下 载 到 windows 版 本 的 tpcc-mysgql。 

tpcc-mysql 由 以 下 两 个 工具 组 成 : 
O tpcc_load; 根据 仓库 数量 ， 生 成 9 张 表 中 的 数据 。 
口 tpcc_start: 根据 不 同 选项 进行 tpcc 测 试 。 
tpcc_load 命 令 的 使 用 方法 如 下 所 示 : 


[root@xen-server ~]# tpcc load 








okckckckck ck ck ck ckck ck ck okok c kockck k ko kk k ko kk kkkkkXkkkkkkX* 


*** ###easy### TPC-C Data Loader  *** 


kk k ck ck ck kk ck Ck k ck kck ck kkk kok k kc k kc k ck ck Ck k kk kk kk 
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x 


usage: tpcc_load [server] [DB] [user] [pass] [warehouse] 
OR 


tpcc load [server] [DB] [user] [pass] [warehouse] [part] [min wh] [max wh] 


* [part]: 1=ITEMS 2-WAREHOUSE 3=CUSTOMER 4=ORDERS 

































5 Lid INT(11) | |^ d id TINYINT(4) @ h.c id INT(H) 
^5, jd SMALLINT(6) | Qw pame VARCHAR(10) | d_w_Jd SMALLINT(6) I 9 h.c. d Jd TINVINT(4) 
© s quantity SMALLINT(6) | > w_street_1 VARCHAR(20) | € d, name VARCHAR(10) > h c « id SMALLINT(6) 
© s dist, 01 CHAR(24) | Ow street, 2 VARCHAR(20) | Cd street, 1 VARCHAR(20) 9 h d id TINVINT(4) 
Os dist 02 CHAR(24) Ku © w cky VARCHAR(20) © d street, 2 VARCHAR(20) dis @ h_w_id SMALLINT(6) 
9 s. dist, 03 CHAR(24) | © we stato CHAR(2) oOd rity VARCHAR(20) ho! — | oh date DATETIME 
9 s, dist, 04 CHAR(24) | Q v zip CHAR(9) | Od state CHAR(2) | > h_amount DECIMAL(6,2) 
s, dist 05 CHAR(24) | © w tax DECIMAL(4,2) i od_2ip CHAR(9) : © h deta VARCHAR(24) 
© s_dist_06 CHAR(24) | © w_ytd DECIMAL(12,2) | © d tax DECIMAL(4,2) | na 
© s dist, 07 CHAR(24) © d ytd DECIMAL(12,2) 
O5 dist, 08 CHAR(24) : odneolMIN() | ! 
© s, dist, 09 CHAR(24) _ Ge 1 Q 








Os dist 10 CHAR(24) 
© s, ytd DECIMAL(8,0) 







€ Jd INT(11) 















Xs order cnt SMALLINT(6) * e d id TINYINT(4) 

Os remote cnt SMALLINT(6) Cw jd SMALLINT(6) 

Os data YARCHAR(50) $c first VARCHAR(16) 
t — es ) 





i ol o Id INT(11) O c. last VARCHAR(16) 
| > ol d jd TINYINT(4) O c. street, 1 VARCHAR(20) 
| ol_w_id SMALLINT(6) © c street. 2 VARCHAR(20) 














> ol number TINYINT(4) © c, city VARCHAR(20) 
i eran | @olji idINT(11) o Id INY(11) > c. state CHAR(2) 
5 iis Hai | | 9 ol supply. ww. id SMALLINT(5) 0. d jd YINYINT(4) © €, zip CHAR(9) 
onerepRawal ay TMNT) uaa S a 
Y H m o.c j C since 
9i price DEC ,2 i bi 
Ad mod | © c_credt CHAR(2) 


1 © ol, amount DECIMAL(6,2) Qo entry d DATETIME 
i € 0, carrier jd TINYINT(4) LO | © c, credit lim BIGINT(20) 


i 

Oi data VARCHAR(50) | 
Oo o cnt TINYINT(A) | { © c, discount DECIMAL(4,2) | 
| 








ee 





9 0, all. local TINYINT(4) 9 c. balance DECIMAL(12,2) 
Qu NONU 3 





© c, ytd payment DECIMAL(12,2) | 
Oc, payment, cnt SMALLINT(6) 
9 c, delivery crt SMALLINT(6) 


O c, data TEXT 





no o WINT(11) 
no, d id TINYINT(4) 
> no w id SMALLINT(6) 





图 9-4 TPC-C 基 本 关系 图 


上 述 各 参数 解析 如 下 : 
Q server; 导入 的 MySQL 服 务 器 IP。 
口 DB : 导入 的 数据 库 。 
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Quser; mysql APA. 

J pass: mysql 的 密码 。 

O warehouse; 要 生产 的 仓库 数量 。 

如 果 用 tpcc_load 工 具 创建 100 个 仓库 的 数据 库 tpcc， 可 以 这 样 : 


[root@xen-server tpcc-mysql]# mysql tpcc< create table.sql 
{root@xen-server tpcc-mysql]# mysql tpcc < add fkey idx.sql 
{root@xen-server tpec-mysql ]# tpcc load 127.0.0.1 tpcc2 root xxxxxx 100 


e e e e e e ee ee ee he he he e he he che che ce he ce he e e e e e e e e e KK € x 


xxx ###easy### TPC-C Data Loader  *** 


kkkkkkkkkkkkkkkkkkk kikk ee e e A à x x x x 


«Parameters» 

[server]: 127.0.0.1 
[DBname]: tpcc2 
[user]: root 

[pass]: 
[warehouse]: 100 
TPCC Data Load Started... 
Loading Item 


-..DATA LOADING COMPLETED SUCCESSFULLY. 


tpcc_start 命 令 的 使 用 方法 如 下 所 示 : 


[root@xen-server ~]# tpcc start 


LAIZZZZZIZIZZEZZZIZIZZEZZEZIZZIZIZSERERARRESEEI 


xxx ###easy### TPC-C Load Generator *** 


LIZIZZEZZZEZZIEZIIZZEZIZZEZIZIZEZEZZZZRZERZZEREZEEI 


usage: tpcc start [server] [DB] [user] [pass] [warehouse] [connection] [rampup] [measure] 

相关 参数 的 作用 如 下 ; 

口 connection: 测试 时 的 线程 数量 。 

口 rampup: 热身 时 间 ， 单 位 为 秒 ， 这 段 时 间 的 操作 不 计 入 统计 信息 。 

O measure: 测试 时 间 ， 单 位 为 秒 。 

如 我 们 使 用 tpcc_start 进 行 16 个 线程 的 测试 ， 热 身 时 间 为 10 分 钟 、 测 试 时 间 为 20 分 钟 ， 
如 下 代码 所 示 。 
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[rootéxen-server ~]# tpcc start 127.0.0.1 tpcc root xxxxxx 100 16 600 1200 


3 eee eee eee ee he ee ee eoe he nee e ee ede ce e e e e de de v e f Li 
*** ###easy### TPC-C Load Generator *** 
e e e e ke eee ee hee e eee dee eee de che de hee he e e ee de eode de e e de Li 
«Parameters» 
[server]: 127.0.0.1 
[DBname]: tpcc 
[user]: root 
[pass]: xxxxxx 
[warehouse]: 100 
[connection]: 16 
[rampup]: 600 (sec.) 
[measure]: 1200 (sec.) 


在 测试 的 时 候 ， 你 也 许 会 在 终端 上 看 到 如 下 输出 : 


RAMP-UP TIME.(1 sec.) 
MEASURING START. 


10, 624(0):0.4, 624(0):0.2, 62(0):0.2, 63(0):0.6, 62(0):0.8 
20, 990(0):0.2, 988(0):0.2, 98(0):0.2, 99(0):0.4, 98(0):0.6 
30, 1435(0):0.2, 1436(0):0.2, 144(0):0.2, 143(0):0.2, 144(0):0.4 
40, 1736(0):0.2, 1739(0):0.2, 174(0):0.2, 174(0):0.2, 174(0):0.4 
50, 2041(0):0.2, 2044(0):0.2, 204(0):0.2, 204(0):0.2, 207(0):0. 
60, 2195(0):0.2, 2193(0):0.2, 220(0):0.2, 221(0):0.2, 218(0):0. 
70, 2332(0):0.2, 2335(0):0.2, 233(0):0.2, 232(0):0.2, 234(0):0. 
80, 2408(0):0.2, 2401(0):0.2, 241(0):0.2, 239(0):0.2, 241(0):0. 
0 
0 


o ooo o 
N 
`~ 


90, 2473(0):0.2, 2476(0):0.2, 247(0):0.2, 250(0):0.2, 248(0):0. 
100, 2350(0):0.2, 2347(0):0.2, 235(0):0.2, 233(0):0.2, 235(0):0. 


o o co o O O 
N 
`~ 

N N NN ND DD 


这 些 信息 是 每 10 秒 tpcc 测 试 的 结果 数据 ，tpcc 测 试 一 共 测 试 5 个 模块 ， 分 别 是 New 
Order、Payment、Order-Status、Delivery、Stock-Level。 第 一 个 值 即 为 New Order， 这 也 
是 TPCC 测 试 结果 的 一 个 重要 考量 标准 New Order Per 10 Second (每 十 秒 订 单 处 理 能 力 )， 
可 以 将 测试 时 所 有 的 数据 组 成 一 张 折 线 图 或 散 点 图 ， 观 察 InnoDB 存 储 引 擎 每 10 秒 的 性 能 表 
现 ， 如 图 9-5 所 示 。 

而 tpcc_load 最 后 结束 时 产生 的 tpmC， 也 是 通过 New Order Per 10 Second 来 进行 的 : 首 
先 求 出 New Order Per 10 Second 的 平均 值 ， 然 后 乘 以 6， 得 到 的 就 是 最 终 的 tpmC。 
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TPCC 
































图 9-5 New Order Per 10 Second 


<Constraint Check» (all must be [OK]) 
[transaction percentage] 
Payment: 43.48% (>=43.0%)[OK} 
Order-Status: 4.35% (>= 4.0%) [OK] 
Delivery: 4.35% (>= 4.0%) [OK] 
Stock-Level: 4.35% (>= 4.0%) [OK] 
[response time (at least 90% passed) } 
New-Order: 99.72% [OK] 
Payment: 99.95% [OK] 
Order-Status: 99.93% [OK] 
Delivery: 100.00% [OK] 
Stock-Level: 100.00% [OK] 


<Tpmc> 
7949.942 TpmC 


9.8 小 结 


在 这 一 章 中 ， 我 们 根据 InnoDB 存 储 引擎 的 应 用 特点 对 CPU、 内 存 、 硬 盘 、 固 态 硬 盘 、 
RAID 卡 做 了 详细 的 介绍 。 只 有 通过 理解 InnoDB 存 储 引擎 的 应 用 场合 和 范围 ， 才 能 更 好 地 
对 其 进行 调 优 。 最 后 ， 介 绍 了 两 个 在 Linux 操 作 系统 平台 下 常用 的 基准 测试 工具 sysbench 和 
tpcc-mysql。 借 助 这 两 个 工具 ， 可 以 更 有 效 地 得 知 当前 系统 的 负载 承受 能 力 ， 以 及 对 数据 
库 的 调 优 结果 进行 分 析 。 
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第 10 章 ”InnoDB 存 储 引 警 源 代码 的 
编译 和 调试 


InnoDB 存 储 引擎 是 开源 的 ， 这 意味 着 你 可 以 获得 其 源 代 码 ， 并 查看 内 部 的 具体 实现 。 
任何 时 候 ，WHY 都 比 WHAT 重 要 。 通 过 研究 产 代 码 ， 可 以 更 好 地 理解 数据 库 是 如 何 工作 的 ， 
从 而 知道 如 何 使 数据 库 更 好 地 为 你 工作 。 如 果 你 有 一 定 的 编程 能 力 ， 则 完全 可 以 对 InnoDB 
存储 引擎 进行 扩展 ， 开 发 出 新 的 功能 模块 来 更 好 地 支持 你 的 数据 库 应 用 。 


10.1 获取 InnoDB 存 储 引 警 源 代码 


InnoDB 存 储 引 擎 的 源 代码 被 包含 在 MySQL 数 据 库 的 源 代码 中 ， 在 MySQL 的 官方 网 
站 9 上 下 载 MySQL 数 据 库 的 源 代码 即 可 ， 如 图 10-1 所 示 。 

可 以 看 到 ， 这 里 有 不 同 操 作 系 统 下 的 源 代 码 可 供 下 载 ， 一 般 只 需 下 载 Generic Linux 
版 本 即 可 。 通 过 MySQL 官 网 首页 的 Download 链 接 ， 可 以 迅速 地 找到 GA 版 本 的 下 载 。 但是， 
如 果 想 要 下 载 目前 正在 开发 的 MySQL 版 本 ， 如 MySQL 5.5.5 (现在 是 milestone 的 版 本 ， 离 
GA 版 本 还 有 很 长 的 开发 时 间 ) ， 可 能 在 官网 找 了 很 久 都 找 不 到 链接 。 这 时 ， 只 要 把 下 载 的 
链接 从 www 换 到 dev 即 可 :; 如 http://dev.mysql.com/downloads/mysql， 在 这 里 可 以 找到 开发 
中 的 MySQI 版 本 的 源 代码 了 ， 如 图 10-2 所 示 ， 

单 击 “Download” 下 载 标签 后 可 以 进入 下 载 页 面 。 当 然 ， 如 果 你 有 mysql.com 账 户 ， 
可 以 进行 登录 。MySQL 官 方 提供 了 大 量 的 镜像 用 来 分 流下 载 ， 你 可 以 根据 所 在 的 位 置 选 择 
下 载 速度 最 快 的 地 址 ， 中 国 用 户 一 般 可 以 在 “Asia” 这 里 的 镜像 下 载 ， 如 图 10-3 所 示 ， 


O #4: http:/www.mysql.com/downloads/mysql/, 
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ySQL Community Server 5.1.48 


elect Platform: 










Source Code — 





SuSE Linux Enterprise Server ver. 11. 
{Architecture Independent), RPM Package 
(My! 





COTTER 5, 2.431 slesi 1.8 





pm) 








Red Hat & Oracle Enterprise Linux 5 
(architecture Independent), RPM Package 


.FhalS.sre.rpmt MCS: 8c38684zde6374bei?742033f94 





IMySQL-communty 5, 










SuSE Linnx Enterprise Server 10 (Architecture 5.1.49 
Independent), RPM Package 


(MySGL-community-5.1,49-1.sfesi0.src.rpem) 





Generic Linux (gbc 2.3) (Architecture 5.1.49 22.0M 
Independent), RPM Package 





{avSQL-3.1,49-1olibe23.oro.rpm} MDS: $6cb7505. 








SuSE Linux Enterprise Server 9 (Architecture 5.1.49 22.0 
Independent), RPM Package 








-i.sies9.srec rim; MOS: $e" 





Red Hat & Oracle Enterprise Linux 4 5.1.49 22.0M 
(Architecture Independent), RPM Package 








Red Hat Enterprise Linux 3 (Architecture 5.1.49 
Independent), RPM Package 
(MySQL-cornmunity-5,1 43-4 rhel3.sec, rpm) 3 MDS: bcESS4EGbO2E4d5dC2337 





6b6s4di&363 


Generic Linux (Architecture Independent), 


图 10-1 MySQL 源 代码 下 载 


Generally Available (GA) Releases ;: Development Releases 


MySQL Community Server 5.5.5 m3 


Select Platform: 


———M ku i 
iSource Code Select i 


Linux - Generic 2.6 (Architecture Independent), «5. 21.0M 
RPM Package 


(MySQL-5,5.5, m 3- t. Énux2.S.src. npe) : ca36675b08817420b2a0f34325872acco4 


SuSE Linux Enterprise Server ver. 11 dl 25,5 21.0M 
(Architecture Independent), RPM Package 


(MvS -ileslisre.eom) 


Red Hat & Oracle Enterprise Linux 5 
(Architecture Independent), RPM Package 


{MySQL-5.5.5 m3-L.rheiS.src.rpm) 1 ddoioa7eS4be238d€2euf7cile3dac 


SuSE Lintrx Enterprise Server 10 (Architecture 
Independent), RPM Package 


(PA 901-5.5.5_ m3-LslesiG.src.com} . d$55e453£4ce 


Red Hat & Oracle Enterprise Linux 4 5. 21.0M 
(Architecture Independent), RPM Package 
(e 6.5,6_m3- 1rheld.src.mpin] 


Generic Linux (Architecture Independent), 
Compressed TAR Archive 


{mysql 2) 





图 10-2 MySQL 开 发 中 版 本 的 源 代码 下 载 
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Asia 
SPD Hosting, Israel 
JAIST, Japan 


Intemet Initiative Japan Inc., Japan 


Lahore University of Management Sciences, Pakistan 


Kyung Hee University Linux User Group, Republic of Korea 
ezNetworking Solutions Pte. Ltd., Singapore 

mirror.tw (Taiwan Mirror), Taiwan 

Providence University, Taiwan 

National Taiwan University, Taiwan 


National Sun Yat-Sen University, Taiwan 


KEEREE I 


Computer Center, Shu- Te University / Kaohsiung, Taiwan 





图 10-3 MySQL 亚 洲 下 载 镜 像 


下 载 的 文件 是 tar.gz 结 尾 的 文件 ， 可 以 通过 Linux 的 tar 命 令 、Windows 的 WinRAR 工 具 
来 进行 解压 ， 解 压 后 得 到 一 个 文件 夹 ， 这 里 面 就 包含 了 MySQL 数 据 库 的 所 有 源 代码 ， 源 代 
码 的 结构 如 图 10-4 所 示 。 


ds BUILD 

ids client 

di cmake 

di CMakefiles 
dé cmd-line-utils 
d config 

dé dbug 

di Bocs 

dé extra 

af include 

idis libmysq! 
«i libmysqlr 
até libmysqld 
ub libservices 
man 

di mysql-test 
di mysys 

«È netware 
«i packaging 
«di plugin 

dé pstack 

«È regex 

«dà scripts 
bea 

«È sql-bench 
dii sql-common 
dé storage 

«È strings 

idi support-files 
ids tests 

Wy unittest 

È vio 

di win 


È zlib 


图 10-4 MySQL 源 代码 目录 结构 





www.TopSage.com 


328 £10* 


所 有 存储 引擎 的 源 代码 都 被 放 在 storage 的 文件 夹 下 ， 其 源 代码 结构 如 图 10-5 所 示 。 


js archive 
$ blackhole 


{} Makefile.in 


图 10-5 存储 引擎 源 代码 文件 夹 





可 以 看 到 ， 所 有 存储 引擎 的 源 代 码 都 在 这 里 。 文 件 夹 名 一 般 就 是 存储 引擎 的 名 称 ， 如 
archive, blackhole, csv, fedorated, heap, ibmdb2i, myisam, innobase, MMySQL 5.5 


版 本 开始 ，InnoDB Plugin 已 经 作为 默认 的 InnoDB 存 储 引 擎 版 本 ; 而 在 MySQL 5.18998 A 
码 中 ， 应 该 可 以 看 到 两 个 版 本 的 InnoDB 存 储 引 擎 源 代码 ， 如 图 10-6 所 示 。 


di archive 

ju blackhole 

di csv 

è example 

A federated 

è heap 

di ibmdb2i 

E innobase 

i innodb plugin 
ds myisam 

di myisammrg 
点 ndb 

Lj Makefile.am 
LÌ Makefile.in 
LJ mysql storage engine.cmake 





图 10-6 MySQL 5.1 存 储 引擎 目录 结构 
可 以 看 到 有 innobase 和 innodb_plugin 两 个 文件 夹 : innobase 文 件 夹 是 旧 的 InnoDB 存 储 
引 警 的 源 代码 ，innodb_plugin 文 件 夹 是 InnoDB Plugin 存 储 引 擎 的 源 代码 。 如 果 你 想 将 
InnoDB Plugin 直 接 静 态 编译 到 MySQL 数 据 库 中 ， 那 么 需要 删除 iInnobase 文 件 夹 ， 再 将 
innodb_plugin 文 件 夹 重 命名 为 innobase。 
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10.2 InnoDB 源 代码 结构 


进入 InnoDB 存 储 引擎 的 源 代 码 文件 夹 ， 应 该 可 以 看 到 如 图 10-7 所 示 的 源 代 码 结构 。 


ài handler 
ids ibuf 

di include 
ds lock 
+ log 

up mach 
js mem 


di mtr 


dé mysql-test 
di os 

dé page 

de pars 

abs que 

d read 


È rem 


È row 
dé srv 
Ai sync 
È thr 
È trx 


È usr 





di ut 


图 10-7 InnoDB 存 储 引擎 源 代 码 的 文件 夹 结 构 


下 面 介绍 一 些 主要 文件 夹 内 源 代 码 的 具体 作用 ， 

Qbtr; B+ 树 的 实现 。 

O buf: 缓冲 池 的 实现 ， 包 括 LRU 算 法 、Flush 刷 新 算法 等 。 

Q dict: InnoDB 存 储 引 敬 内存 数 据 字 典 的 实现 。 

O dyn: InnoDB 存 储 引 警 动态 数组 的 实现 。 

Qfil; InnoDB 存 储 引擎 中 文件 数据 结构 以 及 对 于 文件 的 一 些 操作 。 

Q fsp: 你 可 以 理解 为 fle space， 即 对 InnoDB 存 储 引 擎 物理 文件 的 管理 ， 如 页 、 区 、 段 等 。 
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Qha: 哈 希 算法 的 实现 。 

口 handler: 继承 于 MySQL 的 handler， 插 件 式 存储 引擎 的 实现 。 

Qibuf; 插入 缓冲 的 实现 。 

Q include; InnoDB 将 头 文件 (.h，.ic) 都 统一 放 在 这 个 文件 夹 下 。 

口 lock: InnoDB 存 储 引擎 锁 的 实现 ， 如 S 锁 、X 锁 以 及 定义 锁 的 一 系列 算法 。 
Qlog: 日 志 缓冲 和 重组 日 志文 件 的 实现 。 对 重组 日 志 感 兴趣 的 ， 应 该 好 好 阅读 该 源 代 码 。 
Q mem; 辅助 缓冲 池 的 实现 ， 用 来 申请 一 些 数据 结构 的 内 存 。 

口 mtr: 事务 的 底层 实现 。 

口 os: 封装 一 些 对 于 操作 系统 的 操作 。 

口 page: 页 的 实现 。 

口 row: 对 于 各 种 类 型 行 数据 的 操作 。 

Osrv; 对 于 InnoDB 存 储 引 擎 参数 的 设计 。 

口 sync: InnoDB 存 储 引擎 互 斥 量 《Mutex) 的 实现 。 

O thr; InnoDB 储 存 引擎 封 装 的 可 移植 的 线程 库 。 

口 trx: 事务 的 实现 。 

Qut; 工具 类 。 





10.3 编译 和 调试 InnoDB 源 代码 
10.3.1 Windows 下 的 调试 


在 Windows 平 台 下 ， 可 以 通过 Visual Studion 2003、2005 和 2008 开 发 工具 对 MySQL 的 
源 代 码 进行 编译 和 调试 。 在 此 之 前 ， 需 要 预先 安装 如 下 的 工具 : 

O CMake: 可 以 从 http://www.cmake.org 下 载 。 

口 bison: 可 以 从 http://gnuwin32.sourceforge.net/packages/bison.htm 下 载 。 

安装 之 后 ， 还 需要 通过 configure.js 这 个 命令 进行 配置 : 

C:\workdir>win\configure.js options 


option 比 较 重 要 的 选项 如 下 所 示 。 
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C) WITH, INNOBASE STORAGE ENGINE; 支持 InnoDB 存 储 引 擎 。 

Q WITH. PARTITION STORAGE ENGINE; 分 区 支持 。 

Q WITH. ARCHIVE STORAGE ENGINE; 支持 Archive 存 储 引 擎 。 

Q WITH. BLACKHOLE STORAGE ENGINE; 支持 Blackhole 存 储 引 擎 。 





Q WITH EXAMPLE STORAGE ENGINE; 支持 Example 存 储 引 擎 ， 这 个 存储 引擎 是 
展示 给 开发 人 员 的 ， 你 可 以 从 这 个 存储 引擎 开始 构建 自己 的 存储 引擎。 

口 WITH, FEDERATED. STORAGE ENGINE; 支持 Federated 存 储 引 警 。 

口 WITH_NDBCLUSTER_STORAGE_ENGINE: 支持 NDB Cluster 存 储 引 擎 。 

如 果 只 是 比较 关心 InnoDB 存 储 引擎 ， 可 以 这 样 进行 设置 ， 如 图 10-8 所 示 。 





图 10-8 configure.js 配 置 


之 后 ， 可 以 根据 你 使 用 的 是 Visual Studio 2005 还 是 Visual Studio 2008， 在 win 文件 下 运 
行 build-vsx.bat 文 件 来 生成 Visual Studio 的 工程 文件 。build-vs8.bat 表 示 Visual Studio 2005, 
build-vs8_x64.bat 表 示 需 要 编译 64 位 的 MySQL 数 据 库 。 如 我 们 需要 在 32 位 的 操作 系统 下 使 
用 Visual Studio 2008 进 行 调试 工作 ， 则 可 以 使 用 如 下 命令 : 


D:\Project\mysql-5.5.5-m3>win\build-vs9.bat 

-- Check for working C compiler: C:/Program Files/Microsoft Visual Studio 
9.0/VC/bin/cl.exe 

-- Check for working C compiler: C:/Program Files/Microsoft Visual Studio 
9.0/VC/bin/cl.exe -- works 

-- Detecting C compiler ABI info 

-- Detecting C compiler ABI info - done 

-- Check for working CXX compiler: C:/Program Files/Microsoft Visual Studio 
9.0/VC/bin/cl.exe 

-- Check for working CXX compiler: C:/Program Files/Microsoft Visual Studio 
9.0/VC/bin/cl.exe -- works 

-- Detecting CXX compiler ABI info 
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-- Detecting CXX compiler ABI info - done 

-- Check size of void * 

-- Check size of void * - done 

SIZEOF VOIDP-4 

-- Looking for include files HAVE CXXABI H 

-- Looking for include files HAVE CXXABI H - not found. 
-- Looking for include files HAVE NDIR H 

-- Looking for include files HAVE NDIR H - not found. 

-- Looking for include files HAVE SYS NDIR H 

-- Looking for include files HAVE SYS NDIR H - not found. 
-- Looking for include files HAVE ASM TERMBITS H 

-- Looking for include files HAVE ASM TERMBITS H - not found. 
-- Looking for inciude files HAVE TERMBITS H 

-- Looking for inciude files HAVE TERMBITS H - not found. 
-- Looking for include files HAVE VIS H 

-- Looking for include files HAVE VIS H - not found. 

-- Looking for include files HAVE WCHAR H 

-- Looking for inciude files HAVE WCHAR H - found 

-- Looking for include files HAVE WCTYPE H 

-- Looking for include files HAVE WCTYPE H - found 

-- Looking for include files HAVE XFS XFS H 

-- Looking for include files HAVE XFS XFS H - not found. 
-- Looking for inciude files CMAKE HAVE PTHREAD H 

-- Looking for include files CMAKE HAVE PTHREAD H - not found. 
-- Found Threads: TRUE 

-- Looking for pthread rwlockattr setkind np 

-- Looking for pthread rwlockattr setkind np - not found 
-- Performing Test HAVE SOCKADDR IN SIN LEN 

-- Performing Test HAVE SOCKADDR IN SIN LEN - Failed 

-- Performing Test HAVE SOCKADDR IN6 SIN6 LEN 

-- Performing Test HAVE SOCKADDR IN6 SIN6 LEN - Failed 
-- Cannot find wix 3, installer project will not be generated 
-- Configuring done 

-- Generating done 


-- Build files have been written to: D:/Project/mysql-5.5.5-m3 


这 样 就 生成 了 MySQL.sln 的 工程 文件 ， 打 开 这 个 工程 文件 并 将 mysqld 这 个 项 目 设置 为 
默认 的 启动 项 ， 就 可 以 进行 MySQL 的 编译 和 调试 了。 

之 后 的 编译 、 断 点 的 设置 和 调试 ， 与 在 Visual Studio 下 操作 一 般 的 程序 没有 什么 区 别 ， 
E] 10-9187 T XJ InnoDB fr f£ £ | S&master thread 进 行 调 试 。 
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10-9 调试 master thread 


10.3.2 Linux 下 的 调试 


Linux 下 的 调试 ， 通 常 使 用 Eclipse。 其 他 一 些 类 Unix 操 作 系统 ， 如 Solaris、FreeBSD、 
MAC， 同 样 可 以 使 用 Eclipse 进行 调试 。 首 先 到 http://www.eclipse.org/downloads/ 下 载 并 安 
Eclipse IDE for C/C++ Developers。 然 后 ， 解 压 MySQL 源 代码 到 指定 目录 ， 如 解压 到 
/root/workspace/mysql-5.5.5-m3 ， 接 着 运行 如 下 命令 产生 Make 文 件 (Eclipse 会 使 用 产生 的 
这 些 Make 文 件 ) : 

[rootéxen-server mysql-5.5.5-m3]# BUILD/compile-amd64-debug-max-no-ndb -c 

BUILD 下 有 很 多 compile 文 件 ， 你 可 以 选择 你 所 需要 的 文件 。 本 书 编译 的 平台 是 64 位 的 
Linux 系 统 ， 并 且 我 希望 可 以 进行 Debug 调 试 ， 因 此 选择 了 compile-amd64-debug-max-no- 
ndb 文 件 。 注 意 -c 选 项 ， 这 个 选项 只 生产 Make 文 件 ， 不 进行 编译 。 

接着 打开 Eclipse， 新 建 一 个 C++ 的 项 目 ， 如 图 10-10 所 示 。 
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Select a wizard 


Create a new C++ project T 





Wizards: 









P {> General 
jv > C/C++ 
(£3 C Project 


b CVS 











图 10-10 新 建 一 个 C++ 项 目 


给 项 目 取 个 名 称 ， 如 这 里 的 项 目 名 为 mysql_5_5_5， 并 选择 一 个 空 的 项 目 ， 如 图 10-11 
所 示 。 














C++ Project 
Create C++ project of selected type j ; 
E 
Project name: | mysqi_5_5_5 





Fi Use default iocation 








Project type: 
[fv @ Executabi 














® Hello World C++ Project 
b Qs» Shared Library 

P @ Static Library 

b (= Makefile project 











E] Show project types and toolchains only if they are supported on the platform 








图 10-11 选择 空 项 目 


选择 Finish 按 钮 后 ， 可 以 看 到 新 产生 的 一 个 空 项 目 ， 如 图 10-12 所 示 。 
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v giincludes 
> Bsrincude 
b 5 /usrAnciude/c++/4.1.1 
D fis usránctude/c 4/4.1.1/back]. 
D $8 AssrAnchide/c++/4.1. 1x8 
d È /usrAib/gcc/xB6_64-redhal 
b  /usrilocatinciude 





E Problems | £i tasks] E Consolo & \ E Properties] 


*** Build of configuration Debug for project mysql 5 5 5 *+** 


Nothing to build for project mysqi 5 5 5 














f ge E$ mysg 555 








图 10-12 新 建 的 C++ 项 目 


之 后 选择 左边 的 Project Explorer， 右 击 项 目 mysql_5_5_5， 选 择 新 建文 件 夹 ， 将 文件 夹 
/root/workspace/mysg1-5.5.5-m3 必 入 工程 中 ， 如 图 10-13 所 示 。 













Foider 


Create a new folder resource. 


Enter or select the parent folder: 


pou ds 


[mysqL5 5 5 














Ts. 








Folder name: {mysa:-5 .5.5-m3 


{ << Advanced 


PI} Link to folder in the file system 





[rootiworkspaceimysq 5.5. 

















图 10-13 选择 文件 夹 i 
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导入 文件 夹 后 ， 再 右 击 项 目 名 mysql_5_5_5， 选 择 项 目 属性 ， 在 C/C++ Build 选 项 这 里 
进行 设置 ， 需 要 将 Build directory 选 择 为 源 代 码 所 在 路 径 ， 如 图 10-14 所 示 。 










































C/C++ Buna 
Resource ATA z 
Builders Configuration: |OebugT'ACUVOT: o Lo es PONA ER TOTEE 
Cr Gene launder Settings |@Betiaviour 
Project References ene — 
;Bulder ~~ 
Refactoring History : 
Run/Debug Settings i Bullder type: ree di 
b Task Repository i E] Use defaut build command 
Wikiext Í Bulld command: 
;Makefite generation es 
i C) Generate Makeftles automaticatty 
;Bulld location 
| guild directory: Ís 











图 10-14 编译 配置 


编译 配置 完 后 ， 程 序 就 会 自动 开始 执行 编译 工作 了 ， 如 图 10-15 所 示 。 


it Project Explorer £i 











ib u$mysqi5 5.5 «An cutiine ts not available. 























; = hes ise Os Si IO) ei = 











图 10-15 执行 编译 


上 述 的 这 个 过 程 只 是 编译 的 过 程 ， 换 句 话说， 编译 完 后 就 产生 了 mysqld 这 样 的 执行 文 
件 。 如 果 想 要 进行 调试 ， 还 需要 在 Debug 这 里 进行 如 下 的 配置 ， 如 图 10-16 所 示 。 
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Create, manage, and run configurations 















Name: i 











2 es 


f£] C/C++ Attach to Application 
f£] C/C++ Postmortem Debugger 
& Launch Group 







mysqi 5 5 5 i Browse... 















Bulid Configuration [Debug 





{C++ Application: 








mysqi-5.5.5-m3/sqlimysqid 





Browse... 





Connect process input & output to a terminal. 








Using Standard Create Process Launcher - Seiect 








© 











110-16 Debug 配 置 
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另外 如 有 果 需 要 配置 一 些 额 外 的 参数 ， 需 要 切换 到 Arguments 选 项 ， 如 图 10-17 所 示 。 


之 后 就 可 以 设置 断 点 ， 进 行 调试 工作 了 ， 这 和 一 般 的 程序 并 没有 什么 不 同 ， 如 图 10-18 | 











Create, manage, and run configurations 












Name: lmysa 5 5 5 Debug 
















[£i C/C++ Attach to Application 
fe) C/C++ Postmortem Debugger 


datadir=/root/workspace/mysqi-5.5.5-m3/win/data 
-socket=/Amp/mysq!.sock 
-anguage-/robt/workspace/mysqi-5 5. 5-m3/sqUshare 


| 


& Launch Group 








Working directory: - ~ 


f 














Riter matched 5 of 5 items 


© 














图 10-17 调试 参数 
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=2 start thread) 0x0000003129206367 
= 1 clonef) 0x00000031286d30ad 

b a? Thread [18] (Suspended) 

> 1? Thread [19] (Suspended) 








mutex enter(&kernel mutex); 
$  srv n threads active[SRV MASTER] ++; 


È 
BO mutex exit(&kernel mutex); 
. 


S *.... When there 15 databaté activity by users, wo cycle in this 
D» toop */ 

内 Csrv:rainzthroad opino, s^ reserving Wompt fex" 7, 

$ buf get total statt&büf- Stat); 

P n 10s very old = log sys-»n log ios + buf sfat.n pages read 
> bufiktat.n pages written; T 

è mutex enter(Gkernel mutex); 


pa  /* Store the user activity counter at the start of this loop */ 
2 old activity count z srv activity count; 


M mtex | exit(&kernel, mutex) ; 
LI 








(B consote IN G Tasks |t: Problems) O iem quem ERE T eK ere 
(mysg 5 5.5 Dabug (C/C++ okspace/mysqi5..5-m3/squmysaid (10-8-16 F403) — — 
uem Cape a es 
|InnoD8: Creating foreign key constraint systen tables 
InnoDB: Foreign key constraint system tables created 
100816 16:03:20 Inno08 1.1.1 started; log sequence number 0 
(100816 16:03:33 [Note] Event Schedulor: Loaded © events 
100816 16:03:33 [Note] /root/workspace/mysql-5.5.5-m3/sql/mysqld: ready for connections. 
Version: '5.5.5-.m3-debug' socket: '/tsp/mysql.sock' port: 3306 Source distribution 











图 10-18 用 Eclipse 进行 调试 


10.4 小 结 


MySQL 数 据 库 和 InnoDB 存 储 引擎 都 是 开源 的 ， 我 们 可 以 通过 常用 的 开发 工具 ， 如 
Visual Studio、Eclipse 对 其 进行 编译 和 调试 ， 以 此 来 更 好 地 了 解数 据 库 内 部 运行 机 制 。 有 
能 力 的 开发 人 员 可 以 进一步 扩展 数据 库 的 功能 ， 这 就 是 开源 的 魅力 ， 而 这 些 ， 在 Oracle、 
Microsoft SQL Server、DB2 这 些 商 业 数 据 库 中 是 永远 不 可 能 发 生 的 。 
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计算 机 精品 学 习 资 料 大 放送 


软考 官方 指定 教材 及 同步 辅导 书 下 载 | 软考 历年 真是 解析 与 答案 
软考 视频 | 考试 机 构 | 考试 时 间 安 排 

Java 一 览 无 余 : Java 视频 教程 | Java SE | Java EE 

Net 技术 精品 资料 下 载 汇总 : ASP.NET 篇 

Net 技术 精品 资料 下 载 汇总 : CHES 

.Net 技术 精品 资料 下 载 汇总 : VB.NET 篇 

撼 世 出 击 : C/C++ 编 程 语 言 学 习 资 料 尽 收 眼底 电子 书 + 视 频 教程 
Visual C++(VC/MFC) 学 习 电 子 书 及 开发 工具 下 载 

Perl/CGI 脚本 语言 编程 学 习 资源 下 载 地 址 大 全 

Python 语言 编程 学 习 资料 (电子 书 + 视 频 教 程 ) 下 载 汇总 

最 新 最 全 Ruby. Ruby on Rails 精品 电子 书 等 学 习 资料 下 载 
数据 库 精 品 学 习 资 源 汇总 ， MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/xHTML, CSS 精品 学 习 资 料 下 载 汇总 

最 新 JavaScript, Ajax 典藏 级 学 习 资料 下 载 分 类 汇总 

网 络 最 强 PHP 开发 工具 + 电子 书 十 视频 教程 等 资料 下 载 汇 总 

UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 

经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教程 一 帖 通 
天 罗 地 网 : 精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 

Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇总 

UNIX 操作 系统 精品 学 习 资料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索 引 


附录 人 A Secondary Buffer Pool For InnoDB 


Secondary Buffer Pool 是 我 开发 的 一 个 针对 于 InnoDB 存 储 引擎 的 补丁 ， 通 过 该 补丁 可 
以 实现 将 固态 硬盘 作为 InnoDB 存 储 引擎 的 辅助 缓冲 了 地 (或 者 称 为 L2 Cache)， 通 过 利用 固 
态 硬盘 的 高 随机 读 取 的 性 能 来 提高 数据 库 的 整体 性 能 。 其 官方 网 站 为 : http://code.google. 
com/p/david-mysql-tools/wiki/innodb_secondary_buffer_pool, 

当前 ， 基 于 磁盘 数据 库 是 通过 页 或 块 的 方式 来 进行 数据 库 的 存储 管理 。 当 要 读 取 数据 
时 ， 首 先 判 断 内 存 缓冲 池 中 是 否 有 该 页 的 缓存 ， 如 果 存在 ， 读 取 内 存 中 的 页 即 可 。 若 不 存 
在 ， 则 将 磁盘 上 的 页 读 入 内 存 池 进 行 缓冲 后 再 读 取 。 同 样 ， 对 于 写 入 操作 ， 首 先 在 缓冲 池 
的 页 中 完成 ， 一般 称 之 为 脏 页 ， 然 后 由 后 台 的 调度 线程 或 进程 将 脏 页 刷新 同步 回 磁盘 。 从 
上 述 过 程 可 以 发 现 ， 数 据 库 的 性 能 很 大 程度 上 依赖 于 缓冲 池 的 大 小 。 而 当前 数据 库 的 物理 
大 小 通常 大 于 内 存 的 容量 ， 因 此 通过 利用 固态 硬盘 的 高 随机 读 取 而 设计 的 辅助 缓冲 了 地， 可 
以 避免 物理 的 磁盘 随机 读 取 操 作 ， 从 而 提高 数据 库 的 性 能 。 

图 A-1 显 示 了 辅助 缓冲 池 的 工作 原理 。 当 主 缓冲 池 中 的 页 通过 LRU 算 法 移出 时 (图 中 
的 out 箭 头 ) ， 若 该 页 不 在 辅助 缓冲 池内 ， 则 将 该 页 放 入 辅助 缓冲 地 中 。 当 下 一 次 再 需要 请 
求 这 个 页 时 ， 首 先 判断 页 是 否 在 辅助 缓冲 池内 , SE, WARS (A Paying), 
这 时 就 不 需要 访问 磁盘 上 的 页 了 。 若 缓冲 池内 的 页 修改 了 ， 并 且 也 存在 于 辅助 缓冲 池内 ， 
这 时 并 不 需要 修改 辅助 缓冲 池内 的 页 ， 因 为 一 个 页 可 能 在 缓冲 池内 被 多 次 修改 。 每 次 同步 
辅助 缓冲 池 中 的 页 会 使 固态 硬盘 的 写 人 性 能 问题 暴露 ， 所 以 此 时 把 辅助 缓冲 池 中 的 页 放 人 入 
空闲 列表 的 尾 端 妈 可。 只 有 当主 缓冲 池 的 页 被 移出 时 ， 才 再 次 放 入 辅助 缓冲 池 中 。 可 以 看 
出 ， 辅 助 缓冲 池 的 设计 是 作为 一 个 大 量 读 操作 的 场所 ， 这 也 符合 固态 硬盘 的 特性 。 

虽然 辅助 缓冲 池 可 以 提高 数据 库 的 性 能 ， 但 是 在 第 一 次 从 主 内 存 缓冲 池 放 入 辅助 缓冲 
池 时 ， 需 要 进行 页 的 拷贝 操作 。 如 果 并 发 量 很 大 时 ， 会 产生 性 能 瓶颈 ， 即 数据 库 需 等 待 页 
被 放 入 辅助 缓冲 池 。 为 了 避免 出 现 这 种 情形 ， 我 们 设计 了 一 种 预 载 入 技术 ， 在 数据 库 启动 
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时 ， 可 以 通过 数据 库 的 配置 文件 将 指定 库 中 表 的 数据 页 和 索引 页 放 和 人 辅助 缓冲 了 地 (如 图 
A-1 中 的 Preload table 稍 头 所 示 ) 。 


MySQL InnoDB | 
Secondary 
Primary 
| BE 


Flush to Disk pA table 


图 A-1 Secondary Buffer Pool 体 系 架 构 







下 面 通过 开启 Secondary Buffer Pool 功 能 对 比 数据 库 的 在 线 事务 处 理 (OLTP) 能 力 。 
我 们 选取 了 两 种 不 同 的 测试 环境 ,每 种 测试 环境 又 考虑 了 是 否 开启 辅助 缓冲 。 第 一 种 环境 ， 
主 缓 神 池 的 大 小 为 1.5GB， 即 只 能 缓冲 数据 库 15% 的 数据 ， 这 时 内 存 缓冲 池 明 显 较 小 。 第 
二 种 情况 是 4GB， 即 可 以 缓冲 数据 库 40% 的 数据 ， 这 和 大 部 分 实际 应 用 中 数据 库 和 内 存 组 
冲 池 的 大 小 关系 相当 。 辅 助 缓冲 池 都 设置 为 20GB， 数 据 库 的 所 有 数据 文件 都 可 以 被 缓 促 
入 辅助 缓冲 池 中 。 

测试 得 到 的 结果 如 图 A-2 所 示 。 可 以 看 到 辅助 缓冲 池 的 引入 极 大 地 提高 了 数据 库 的 性 
BE. 在 主 缓冲 池 为 1.5GB 的 情况 下 ,启用 辅助 缓冲 池 后 数据 库 的 性 能 可 有 3.0 ~3.2 倍 的 提高 。 
在 主 缓冲 池 为 4GB 的 情况 下 ， 启 用 辅助 缓冲 池 后 数据 库 的 性 能 可 有 1.0~ 1.2 倍 的 提高 。 可 
见 当主 缓冲 池 越 小 ， 辅 助 缓冲 地 对 于 数据 库 性 能 提高 的 帮助 就 越 大 。 
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附录 B Master Thread 源 代码 


[FO II III III III IOI ICICI RE RO KO KU E oe eee e e i I 


The master thread controlling the server. 
@return a dummy parameter */ 
UNIV_INTERN 

os_thread_ret_t 


srv master thread ( 


/*==============#*/ 
void* arg attribute  ((unused))) 、 
/*1< in: a dummy parameter required by 
os thread create */ 
t 


buf pool stat t buf stat; 


os event tevent; 


ulint old activity count; 
ulint n pages purged = 0; 
ulint n_bytes_merged; 
‘ulint n_pages_flushed; 
ulint n_bytes_archived; 
ulint n_tables_to_drop; 
ulint n_ios; 

ulint n_ios_old; 

ulint n_ios_very_old; 
ulint n pend ios; 

ulint next itr time; 
ulint i; 


#ifdef UNIV DEBUG THREAD CREATION 
fprintf (stderr, "Master thread starts, id $1uMn", 
os thread pf (os thread get curr id ())) ; 
#endif 


#ifdef UNIV_PFS_THREAD 
pfs_register_thread (srv_master_thread_key) ; 


#endif 


srv_main_thread_process_no = os_proc_get_number () ; 
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srv main thread id = os thread pf (os thread get curr id ()) ; 
srv table reserve slot (SRV MASTER) ; 

mutex enter (&kernel mutex) ; 

srv n threads active[SRV MASTER]++; 

mutex exit (&kernel mutex) ; 

loop: 


[III IKK KI II e e dee he de e ee e e de he ehe e he je he de he e ek he e e e e e ke e dee e de dee dee de e e e e e e ee e x / 


/* ---- When there is database activity by users, we cycle in this 


loop */ 

srv main thread op info = "reserving kernel mutex"; 

buf get total stat (&buf stat) ; 

n ios very old = log sys-»n log ios + buf stat.n pages read 
* buf stat.n pages written; 


mutex enter (&kernel mutex) ; 


/* Store the user activity counter at the start of this loop */ 
old activity count - srv activity count; 


mutex exit (&kernel mutex) ; 
if (srv force recovery >= SRV FORCE NO BACKGROUND) { 
goto suspend thread; 
/* ---- We run the following loop approximately once per second 
when there is database activity */ 


srv last log flush time - time (NULL) ; 
next itr time = ut time ms () ; 


for (i = 0; i< 10; i++) { 
ulint cur_time = ut_time_ms () ; 


buf_get_total_stat (&buf_stat) ; 


n_ios_old = log_sys->n_log_ios + buf_stat.n_pages_read 
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+ buf stat.n pages written; 


srv main thread op_info.= "sleeping"; 


srv main 1 second loopst*; 


if 


(next itr time > cur time) { 


/* Get sleep interval in micro seconds. We use 

ut min () to avoid long sleep in case of 

wrap around. */ 

os thread sleep (ut min (1000000, 
(next itr time - cur time) 
* 1000)) ; 


srv main sleepst+; 


/* Each iteration should happen at 1 second interval. */ 


next itr time = ut time ms () + 1000; 


/* ALTER TABLE in MySQL requires on Unix that the table handler 


can drop tables lazily after there no longer are SELECT 


queries to them. */ 


srv main thread op info = "doing background drop tables"; 


row drop tables for mysql in background () ; 


nu 


srv main thread op info - H 


if 


(srv fast shutdown && srv shutdown state > 0) { 


goto background loop; 


/* Flush logs if needed */ 


srv sync log buffer in background () ; 


srv main thread op info - "making checkpoint"; 


log free check () ; 


/* If i/os during one second sleep were less than 5% of 


capacity, we assume that there is free disk i/o capacity 


available, and it makes sense to do an insert buffer merge. 
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buf_get_total_stat (&buf_stat) ; 
n pend ios = buf get n pending ios () 
* log sys-»n pending writes; 
n ios = log sys-»n log ios + buf stat.n pages read 
* buf stat.n pages written; 
if (n pend ios « SRV PEND IO THRESHOLD 
&& (n ios - n ios old « SRV RECENT IO ACTIVITY)) ( 
srv main thread op info - "doing insert buffer merge"; 


ibuf contract for n pages (FALSE, PCT IO (5)) ; 


/* Flush logs if needed */ 


srv sync log buffer in background () ; 


if (UNIV UNLIKELY (buf get modified ratio pct () 


» srv max buf pool modified pct)) ( 


/* Try to keep the number of modified pages in the 


buffer pool under the limit wished by the user */ 


srv main thread op info - 
"flushing buffer pool pages"; 
n pages flushed - buf flush list ( 
PCT IO (100) , IB ULONGLONG MAX) ; 


) else if (srv adaptive flushing) ( 


/* Try to keep the rate of flushing of dirty 

pages such that redo log generation does not 
produce bursts of IO at checkpoint time. */ 

ulint n flush = buf flush get desired flush rate () ; 


if (n flush) { 

srv main thread op info - 

"flushing buffer pool pages"; 
n flush = ut min (PCT IO (100) , n flush) ; 
n pages flushed - 

buf flush list ( 

n flush, 

IB ULONGLONG MAX) ; 


if (srv activity count -- old activity count) ( 
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/* There is no user activity at the moment, go to 


the background loop */ 


goto background loop; 


/* ---- We perform the following code approximately once per 


10 seconds when there is database activity */ 


#ifdef MEM PERIODIC CHECK 
/* Check magic numbers of every allocated mem block once in 10 
seconds */ 
mem validate all blocks () ; 

fendif 
/* If i/os during the 10 second period were less than 200$ of 
capacity, we assume that there is free disk i/o capacity 


available, and it makes sense to flush srv io capacity pages. 


Note that this is done regardless of the fraction of dirty 
pages relative to the max requested by the user. The one second 
loop above requests writes for that case. The writes done here 


are not required, and may be disabled. */ 


buf get total stat (&buf stat) ; 
n pend ios = buf get n pending ios () + log sys-»n pending writes; 
n ios = log sys-»n log ios + buf stat.n pages read 


* buf stat.n pages written; 


srv main 10 second loopstt; 
if (n pend ios « SRV PEND IO THRESHOLD 
&& (n ios - n ios very old « SRV PAST IO ACTIVITY)) { 


srv main thread op info = "flushing buffer pool pages"; 
buf flush list (PCT IO (100) , IB ULONGLONG MAX) ; 


/* Flush logs if needed */ 


srv sync log buffer in background () ; 


/* We run a batch of insert buffer merge every 10 seconds, 


even if the server were active */ 


srv main thread op info - "doing insert buffer merge"; 
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ibuf contract for n pages (FALSE, PCT IO (5)) ; 


/* Flush logs if needed */ 
Srv sync log buffer in background () ; 


if (srv n purge threads == 0) { 
srv main thread op info - "master purging"; 


srv master do purge () ; 
if (srv fast shutdown && srv shutdown state » 0) ( 


goto background loop; 


srv main thread op info = "flushing buffer pool pages"; 
/* Flush a few oldest pages to make a new checkpoint younger */ 
if (buf get modified ratio pct () » 70) ( 
/* If there are lots of modified pages in the buffer pool 
(» 70 $) , we assume we can afford reserving the disk (s) for 


the time it requires to flush 100 pages */ 


n pages flushed - buf flush list ( 
PCT IO (100) , IB ULONGLONG MAX) ; 


) eise ( 
/* Otherwise, we only flush a small number of pages so that 
we do not unnecessarily use much disk i/o capacity from 
other work */ 
n pages flushed = buf flush list (- 
PCT IO (10) , IB ULONGLONG MAX) ; 
} . 
1 
srv_main_thread_op_info = "making checkpoint"; 


/* Make a new checkpoint about once in 10 seconds */ 
log_checkpoint (TRUE, FALSE) ; 


i M 
Srv main thread op info = "reserving kernel mutex"; 
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mutex enter (&kernel mutex) ; 


/* ---- When there is database activity, we jump from here back to 
the start of loop */ 


if (srv activity count != old activity count) { 
mutex exit (&kernel mutex) ; 
goto loop; 


mutex exit (&kernel mutex) ; 


/* If the database is quiet, we enter the background loop */ 


[RIK ee ee e hehehe e e e e he hee e ehe he e hehe e ehe IT ke ke ke e ehe heck e e he hec de e koe e dee eee deje eek | 
background loop: 

/* ---- In this loop we run background operations when the server 
is quiet from user activity. Also in the case of a shutdown, we 
loop here, flushing the buffer pool to the data files. */ 


/* The server has been quiet for a while: start running background 
operations */ 

srv main background loops-**; 

srv main thread op info - "doing background drop tables"; 


n tables to drop - row drop tables for mysql in background () ; 


if (n tables to drop > 0) { 
/* Do not monopolize the CPU even if there are tables waiting 
in the background. drop queue. (It is essentially a bug if 
MySQL tries to drop a table while there are still open handles 
to it and we had to put it to the background drop queue.) */ 


os thread sleep (100000) 


M 


) 

if (srv n purge threads == 0) { 
srv main thread op info - "master purging"; 
srv master do purge () ; 

) 

srv main thread op info - "reserving kernel mutex"; 


www.TopSage.com 


Master Thread & KY 349 
ee Ah Fo rt Lod 203 


mutex enter (&kernel mutex) ; 

if (srv activity count != old activity count) { 
mutex exit (&kernel mutex) ; 
goto loop; 

) 


mutex exit (&kernel mutex) ; 


Srv main thread op info = "doing insert buffer merge"; 


if (srv fast shutdown && srv shutdown state > 0) { 


n bytes merged - 0; 


) eise ( 

/* This should do an amount of IO similar to the number of 

dirty pages that will be flushed in the call to 

buf flush list below. Otherwise, the system favors 

clean pages over cleanup throughput. */ 

n bytes merged - ibuf contract for n pages (FALSE, 

PCT IO (100)) ; 

} 
srv_main_thread_op_info = "reserving kernel mutex"; 


mutex_enter (&kernel_mutex) ; 

if (srv activity count != old activity count) { 
mutex exit (&kernel mutex) ; 
goto loop; 

) 


mutex exit (&kernel mutex) ; 


flush loop: 
srv main thread op info = "flushing buffer pool pages"; 
srv main flush loops-t*; 
if (srv fast shutdown « 2) { 
n pages flushed = buf flush list ( 
PCT IO (100) , IB ULONGLONG MAX) ; 
) eise ( 
/* In the fastest shutdown we do not flush the buffer pool 
to data files: we set n pages flushed to 0 artificially. */ 


n pages flushed - 0; 


srv main thread op info - "reserving kernel mutex"; 
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mutex enter (&kernel mutex) ; 

if (srv activity count != old activity count) { 
mutex exit (&kernel mutex) ; 
goto loop; 

} 


mutex_exit (&kernel_mutex) ; 


srv main thread op info = "waiting for buffer pool flush to end"; 
buf flush wait batch end (NULL, BUF FLUSH LIST) ; 


/* Flush logs if needed */ 


srv sync log buffer in background () ; 

srv main thread op info = "making checkpoint"; 

log checkpoint (TRUE, FALSE) ; 

if (buf get modified ratio pct () > srv max buf pool modified pct) { 


/* Try to keep the number of modified pages in the 
buffer pool under the limit wished by the user */ 


goto flush loop; 


srv main thread op info - "reserving kernel mutex"; 


mutex enter (&kernel mutex) ; 
if (srv activity count != old activity count) { 
mutex exit (&kernel mutex) ; 
goto loop; 
} 
mutex_exit (&kernel_mutex) ; 
/* 
srv_main_thread_op info = “archiving log (if log archive is on) "; 


log archive do (FALSE, &n bytes archived) ; 
*/ 


n bytes archived = 0; 
/* Keep looping in the background loop if still work to do */ 


if (srv fast shutdown && srv shutdown state » 0) ( 


if (n tables to drop + n pages flushed 
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* n bytes archived !- 0) ( 


/* If we are doing a fast shutdown (= the default) 
we do not do purge or insert buffer merge. But we 
flush the buffer pool completely to disk. 

Ina 'very fast' shutdown we do not flush the buffer 
pool to data files: we have set n pages flushed to 


0 artificially. */ 


goto background loop; 


) 
) else if (n tables to drop 
+ n pages purged + n bytes merged + n pages flushed 
+ n bytes archived != 0) ( 
/* In a 'slow' shutdown we run purge and the insert buffer 


merge to completion */ 

goto background loop; 
/* There is no work for background operations either: suspend 
master thread to wait for more server activity */ 


suspend thread: 


srv main thread op info = "suspending"; 
mutex enter (&kernel mutex) ; 


if (row get background drop list len low () » 0) ( 
mutex exit (&kernel mutex) ; 


goto loop; 


event = srv suspend thread () ; 
mutex exit (&kernel mutex) ; 


/* DO NOT CHANGE THIS STRING. innobase start or create for mysql () 
waits for database activity to die down when converting « 4.1.x 
databases, and relies on this string being exactly as it is. InnoDB 
manual also mentions this string in several places. */ 


srv main thread op info - "waiting for server activity"; 
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os_event_wait (event) ; 
if (srv shutdown state == SRV SHUTDOWN EXIT THREADS) { 
/* This is only extra safety, the thread should exit 


already when the event wait ends */ 


os thread exit (NULL) ; 


/* When there is user activity, InnoDB will set the event and the 


main thread goes back to loop. */ 
goto loop; 


OS THREAD DUMMY RETURN; /* Not reached, avoid compiler warning */ 
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trxOsys.h 


/** Doublewrite control struct */ 
struct trx doublewrite struct( 


mutex t  mutex; /*1< mutex protecting the first free field and 
write buf */ 

ulint blockl; /*!< the page number of the first 
doublewrite block (64 pages) */ 

ulint block2; /*!< page number of the second block */ 

ulint first free;/*!« first free position in write buf measured 
in units of UNIV PAGE SIZE */ 

byte* write buf; /*!< write buffer used in writing to the 


doublewrite buffer, aligned to an 
address divisible by UNIV PAGE SIZE 
(which is required by Windows aio) */ 
byte* write buf unaligned; 
/*1« pointer to write buf, but unaligned */ 
buf page t** 
buf block arr; /*!< array to store pointers to the buffer 
blocks which have been cached to write buf */ 


trxOsys.c 

Jf Che hehe hehe ehe e he e hehe e ee hehe KKK e he e KEKE he e ede e KER HERE hee ehe hehe ke hehe ehe e he e e e ke e e e e de | [RK 
Determines if a page number is located inside the doublewrite buffer. 
@return TRUE if the location is inside the two blocks of the 
doublewrite buffer */ 

UNIV INTERN 

ibool 

trx doublewrite page inside ( 

/[*m2mmmumumuuiumuniuuiumu A 


ulint page no) /*1« in: page number */ 
if (trx doublewrite -- NULL) ( 


return (FALSE) ; 
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if (page no >= trx_doublewrite->block1 
&& page no < trx doublewrite-»blockl 
+ TRX SYS DOUBLEWRITE BLOCK SIZE) ( 
return (TRUE) ; 


if (page no >= trx doublewrite->block2 
&& page no < trx_doublewrite->block2 
+ TRX SYS DOUBLEWRITE BLOCK SIZE) { 
return (TRUE) ; 


return (FALSE) ; 


/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk | LEK 
Creates or initialializes the doublewrite buffer at a database start. */ 
static 

void 


trx_doublewrite_init ( 


byte* doublewrite) /*1« in: pointer to the doublewrite buf 


header on trx sys page */ 
trx doublewrite - mem alloc (sizeof (trx doublewrite t)) ; 


/* Since we now start to use the doublewrite buffer, no need to call 
fsync () after every write to a data file */ 

#ifdef UNIV DO FLUSH 
os do not call flush at each write - TRUE; 

#endif /* UNIV DO FLUSH */ 


mutex create (&trx doublewrite-»mutex, SYNC DOUBLEWRITE) ; 
trx_doublewrite->first_ free = 0; 


trx_doublewrite->blockl = mach read from 4 ( 
doublewrite + TRX SYS DOUBLEWRITE BLOCK1) 

trx doublewrite-»block2 = mach read from 4 ( 
doublewrite + TRX SYS DOUBLEWRITE BLOCK2) 

trx doublewrite->write buf unaligned = ut malloc ( 
(1 + 2 * TRX SYS DOUBLEWRITE BLOCK SIZE) * UNIV PAGE SIZE) ; 


~ 


`. 


trx_doublewrite->write_buf = ut_align ( 
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trx doublewrite-»write buf unaligned, UNIV PAGE SIZE) ; 
trx doublewrite-»buf block arr = mem alloc ( 
2 * TRX SYS DOUBLEWRITE BLOCK SIZE * sizeof (void*)) ; 


bufOflu.c 


VEZZZIZIZZZIIII} LIZ: E e e e e de JE e e e de e e e e RO OE RR R KR KORG RR Kok KK e e eee eee ke e ke k ke k f / tok 
Flushes possible buffered writes from the doublewrite memory buffer to disk, 
and also wakes up the aio thread if simulated aio is used. It is very 
important to call this function after a batch of writes has been posted, 
and also when we may have to wait for a page latch! Otherwise a deadlock 


of threads can occur. */ 


static 
void 
buf_flush_buffered_writes (void) 
/*===========================*/ 
{ 
byte* write buf; 
ulint len; 
ulint len2; 
ulint i; 
if (!srv_use_doublewrite_buf || trx doublewrite == NULL) { 
/* Sync the writes to the disk. */ 
buf_flush_sync_datafiles Q; 
return; 
} 


mutex_enter (& (trx_doublewrite->mutex)) ; 

/* Write first to doublewrite buffer blocks. We use synchronous 
aio and thus know that file write has been completed when the 
control returns. */ 

if (trx_doublewrite->first_free == 0) { 


mutex exit (& (trx doublewrite-»mutex)) ; 


return; 


for (i = 0; i < trx doublewrite-»first free; i++) { 


const buf block t* block; 
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block = (buf block t*) trx doublewrite->buf block arr[i]; 


if (buf block get state (block) != BUF BLOCK FILE PAGE 
|] block->page.zip.data) { 
/* No simple validate for compressed pages exists. */ 
continue; 


if (UNIV UNLIKELY 
(mememp (block->frame + (FIL PAGE LSN + 4), 
block->fcame + (UNIV PAGE SIZE 
- FIL PAGE END LSN OLD CHKSUM + 4), 
4)) t 
ut print timestamp (stderr) ; 
fprintf (stderr, 
"InnoDB: ERROR: The page to be written" 
"seems corrupt! \n" 
“InnoDB: The lsn fields do not match!” 
"Noticed in the buffer pool\n" 
"InnoDB: before posting to the" 
"doublewrite buffer.\n") ; 


if (lIblock-»check index page at flush) { 
) else if (page is comp (block->frame)) { 
if (UNIV UNLIKELY 
(!page simple validate new (block->frame))) ( 


corrupted page: 


buf page print (block->frame, 0) ; 

ut print timestamp (stderr) ; 

fprintf (stderr, 
"InnoDB: Apparent corruption of an" 
"index page n:o $1u in space %lu\n" 
"InnoDB: to be written to data file." 
"We intentionally crash server\n" 
"InnoDB: to prevent corrupt data" 
"from ending up in data Mn" 
"InnoDB: files.\n", 
(ulong) buf block get page no (block) , 
(ulong) buf block get space (block)) ; 


ut error; 
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) 
) else if (UNIV UNLIKELY 
(!page simple validate old (block->frame))) ( 


goto corrupted page; 


/* increment the doublewrite flushed pages counter */ 
Srv dblwr pages writtent- trx doublewrite-»first free; 


srv dblwr writes-t*; 


len - ut min (TRX SYS DOUBLEWRITE BLOCK SIZE, ; 
trx_doublewrite->first_free) * UNIV PAGE SIZE; 


write buf - trx doublewrite-»write buf; 


i-20; 


fil io (OS FILE WRITE, TRUE, TRX SYS SPACE, 0, 
trx doublewrite-»blockl, 0, len, 
(void*) write buf, NULL) ; 


for (len2 = 0; len2 + UNIV PAGE SIZE <= len; 
len2 += UNIV PAGE SIZE, i++) { 
const buf block t* block - (buf block t*) 


trx doublewrite-»buf block arr[i]; 


if (UNIV LIKELY (!block->page.zip.data) 
&& UNIV LIKELY (buf block get state (block) 
== BUF BLOCK FILE PAGE) 
&& UNIV UNLIKELY 
(memcmp (write buf + len2 + (FIL PAGE LSN + 4), 
write buf + len2 
* (UNIV PAGE SIZE 
- FIL PAGE END LSN OLD CHKSUM * 4) , 4))) ( 
ut print timestamp (stderr) ; 
fprintf (stderr, 
"InnoDB: ERROR: The page to be written" 
"seems corrupt!\n" 
"InnoDB: The lsn fields do not match!” 
"Noticed in the doublewrite blockl.Wn") ; 
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if (trx_doublewrite->first_free <= TRX_SYS_DOUBLEWRITE_BLOCK_SIZE) { 
goto flush; 
} 


len = (trx_doublewrite->first_free - TRX SYS DOUBLEWRITE BLOCK SIZE) 
* UNIV PAGE SIZE; 


write buf = trx doublewrite-»write buf 
* TRX SYS DOUBLEWRITE BLOCK SIZE * UNIV PAGE SIZE; 
ut ad (i == TRX SYS DOUBLEWRITE BLOCK SIZE) ; 


fil io (OS FILE WRITE, TRUE, TRX SYS SPACE, 0, 
trx_doublewrite->block2, 0, len, 
(void*) write buf, NULL) ; 


for (len2 = 0; len2 + UNIV PAGE SIZE <= len; 
len2 += UNIV PAGE SIZE, i++) ( 
const buf block t* block = (buf block t*) 
trx doublewrite-»2buf block arr[i]; 


if (UNIV LIKELY (!block-»page.zip.data) 
&& UNIV LIKELY (buf block get state (block) 
== BUF BLOCK FILE PAGE) 
&& UNIV UNLIKELY 
(memcmp (write buf + len2 + (FIL PAGE LSN + 4), 
write buf + len2 
* (UNIV PAGE SIZE 
- FIL PAGE END LSN OLD CHKSUM + 4) , 4))) { 
ut print timestamp (stderr) ; 
fprintf (stderr, 
"InnoDB: ERROR: The page to be" 
"written seems corrupt!\n" 
"InnoDB: The lsn fields do not match!" 
"Noticed in" 
"the doublewrite block2.\n") ; 


flush: 
/* Now flush the doublewrite buffer data to disk */ 


fil flush (TRX SYS SPACE) ; 


/* We know that.the writes have been flushed to disk now 
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and in recovery we will find them in the doublewrite buffer 


blocks. Next do the writes to the intended positions. */ 


for (i = 0; i < trx doublewrite-»first free; i++) { 
const buf block t* block = (buf block t*) 


trx_doublewrite->buf block arr[i]; 


ut a (buf page in file (&block->page)) ; 
if (UNIV LIKELY NULL (block-»page.zip.data)) ( 
fil io (OS FILE WRITE | OS AIO SIMULATED WAKE LATER, 
FALSE, buf page get space (&block-»page) , 
buf page get zip size (&block-»page) , 
buf page get page no (&block-»page) , 0, 
buf page get zip size (&block->page) , 
(void*) block->page.zip.data, 
(void*) block) ; 


/* Increment the counter of I/O operations used 
for selecting LRU policy. */ 
buf LRU stat inc io () ; 


continue; 


ut a (buf block get state (block) == BUF BLOCK FILE PAGE) ; 


if (UNIV UNLIKELY (memcmp (block->frame + (FIL PAGE LSN + 4), 
block->frame 
+ (UNIV_PAGE_SIZE 
- FIL PAGE END LSN OLD CHKSUM + 4), 
4)) ( 
ut print timestamp (stderr) ; 
fprintf (stderr, 
"InnoDB: ERROR: The page to be written" 
"seems corrupt! \n" 
"InnoDB: The lsn fields do not match!" 
"Noticed in the buffer pool\n" 
“InnoDB: after posting and flushing" 
"the doublewrite buffer.\n" 
"InnoDB: Page buf fix count %lu," 
"io fix $1u, state %lu\n", 
(ulong) block-»page.buf fix count, 
(ulong) buf. block get io fix (block) , 
(ulong) buf block get state (block)) ; 
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fil io (OS FILE WRITE | OS AIO SIMULATED WAKE LATER, 
FALSE, buf block get space (block) , 0, 
buf block get page no (block) , 0, UNIV PAGE SIZE, 


(void*) block->frame, (void*) block) ; 


/* Increment the counter of I/O operations used 
for selecting LRU policy. */ 
buf LRU stat inc io () ; 


/* Sync the writes to the disk. */ 
buf flush sync datafiles () ; 


/* We can now reuse the doublewrite memory buffer: */ 


trx doublewrite-»-first free = 0; 


mutex exit (& (trx doublewrite-»mutex)) ; 
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hashOhash.h 


VEZZZZIZZIZZZZITZIZZIZZLTZZTZIZTZITZTITTXTXIXIITZTITZZIXIILLTLILIZIZIZTIIZLZIIZZILZL: 


Copyright (c) 1997, 2009, Innobase Oy. All Rights Reserved. 


This program is free software; you can redistribute it and/or modify it under 
the terms of the GNU General Public License as published by the Free Software 


Foundation; version 2 of the License. 


This program is distributed in the hope that it will be useful, but WITHOUT 
ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS 
FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. 


You should have received a copy of the GNU General Public License along with 
this program; if not, write to the Free Software Foundation, Inc., 59 Temple 
Place, Suite 330, Boston, MA 02111-1307 USA 


kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/ 


/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/j/j/xk 


@file include/hash0hash.h 
The simple hash table utility 


Created 5/20/1997 Heikki Tuuri 


kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/ 


#ifndef hashOhash h 
#define hashOhash h 


#include "univ.i" 

#include "memOmem.nh" 

#ifndef UNIV_HOTBACKUP 

# include "syncOsync.h" 
#endif /* !UNIV_HOTBACKUP */ 


typedef struct hash table struct hash table t; 
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typedef struct hash cell struct hash cell t; 
typedef void* hash node t; 


/* Fix Bug #13859: symbol collision between imap/mysql */ 


#define hash create hash0 create 


LR IRI KK KKK KKK IKK IK KK IKI KK KEKE KEKE KEKE EKER EE KEKE KE EKEEEKEE KEE | jkk 


Creates a hash table with >= n array cells. The actual number 
of cells is chosen to be a prime number slightly bigger than n. 
@return own: created table */ 

UNIV_INTERN 

hash table t* 


hash create ( 


ulint n) ; /*1< in: number of array cells */ 
#ifndef UNIV HOTBACKUP 
/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/j/kk 
Creates a mutex array to protect a hash table. */ 
UNIV_INTERN 
void 


hash_create_mutexes_func ( 


hash_table_t* table, /*!< in: hash table */ 
#ifdef UNIV_SYNC_DEBUG 

ulint sync_level, /*1« in: latching order level of the 

mutexes: used in the debug version */ 

#endif /* UNIV SYNC DEBUG */ 

ulint n mutexes) ; /*1« in: number of mutexes */ 
#ifdef UNIV SYNC DEBUG 
# define hash create mutexes (t,n,level) hash create mutexes func (t,level,n) 
#else /* UNIV SYNC DEBUG */ 
# define hash create mutexes (t,n,level) hash create mutexes func (t,n) 
#endif /* UNIV SYNC DEBUG */ 
#endif /* IUNIV HOTBACKUP */ 


/khkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/ [KK 


Frees a hash table. */ 
UNIV_INTERN 


void 
hash_table_free ( 
/*seereseseceet / 
hash table t* table) ; /*1« in, own: hash table */ 


/kkkkkkkikkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk//kk 
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Calculates the hash value from a folded value. 
@return hashed value */ 
UNIV_INLINE 
ulint 
hash calc hash ( 
/*===========*/ 
ulint fold,  /*1« in: folded value */ 
hash table t* table) ; /*|1« in: hash table */ 
#ifndef UNIV HOTBACKUP 
[RC eee eee e ee e e ke he he e e e e e e he he e e e e he e e he e e e he e he e de he e e e he ke e e e e dee hee e e eee eee RIK | LK 
Assert that the mutex for the table in a hash operation is owned. */ 
# define HASH ASSERT OWNED (TABLE, FOLD) N 
ut ad (! (TABLE) ->mutexes || mutex own (hash get mutex (TABLE, FOLD))) ; 
#else /* !UNIV_HOTBACKUP */ 
# define HASH ASSERT OWNED (TABLE, FOLD) 
#endif /* !UNIV HOTBACKUP */ 


[RRR RIK RIKI e e dee e de he e e he e ee e ehe LE LL e e he e e eh e e e e hok ee e dee e de dee RK KKK RRR KKK | ek 


Inserts a struct to a hash table. */ 


#define HASH INSERT (TYPE, NAME, TABLE, FOLD, DATA) \ 


do {\ 
hash_cell_t* cell3333;\ 
TYPE* struct3333;\ 
X 
HASH ASSERT OWNED (TABLE, FOLD) \ 
N 
(DATA) ->NAME = NULL;\ 
\ 
cell3333 = hash get nth cell (TABLE, hash calc hash (FOLD, TABLE)) ;\ 
N 
if (cell3333->node == NULL) {\ 
cell3333->node = DATA;\ 
} else {\ 
struct3333 = (TYPE*) cel13333->node;\ 
\ 
while (struct3333->NAME != NULL) {\ 
X 
struct3333 = (TYPE*) struct3333->NAME; \ 
}\ 
\ 
struct3333->NAME = DATA;\ 
}\ 
} while (0) 
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#ifdef UNIV HASH DEBUG 


# define HASH ASSERT VALID (DATA) ut, a ((void*) (DATA) != (void*) -1) 
# define HASH INVALIDATE (DATA, NAME) DATA->NAME = (void*) -1 
felse 


# define HASH ASSERT VALID (DATA) do {} while (0) 
# define HASH INVALIDATE (DATA, NAME) do () while (0) 
#endif 


/Fkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk//kk 


Deletes a struct from a hash table. */ 


#define HASH DELETE (TYPE, NAME, TABLE, FOLD, DATA) \ 


do {\ 
hash cell t* cell3333;\ 
TYPE* struct3333;\ 
\ 
HASH, ASSERT, OWNED (TABLE, FOLD) \ 
\ 
cell3333 = hash get nth cell (TABLE, hash calc hash (FOLD, TABLE)) ;\ 
N 
if (cell3333->node == DATA) {\ 
HASH ASSERT VALID (DATA->NAME) ;\ 
cell3333->node = DATA->NAME; \ 
} else {\ 
struct3333 = (TYPE*) cell3333->node; \ 
\ 
while (struct3333->NAME l= DATA) {\ 
\ 
struct3333 = (TYPE*) struct3333->NAME;\ 
ut a (struct3333) ;\ 
}\ 
\ 


struct3333->NAME = DATA->NAME; \ 
}\ 
HASH INVALIDATE (DATA, NAME) ;\ 
) while (0) 


[RII IK EIT IRE REE KEE EEK ERK EEE KERR KRENEK KR KK KKK KKK KK / E 


Gets the first struct in a hash chain, NULL if none. */ 


#define HASH_GET_FIRST (TABLE, HASH_VAL) \ 
(hash get nth cell (TABLE, HASH VAL) ->node) - 


[HRI TTT I IK RIT TK d de de de de I RTO de de de de de RI de eede IR III IR II LLL LLL il 
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Gets the next struct in a hash chain, NULL if none. */ 


#define HASH GET NEXT (NAME, DATA) ((DATA) ->NAME) 


LL ERR EE RR RTT TTT IO TTT TOT TOTO TOI TOR TOR I TO a a I E 


Looks for a struct in a hash table. */ 
#define HASH SEARCH (NAME, TABLE, FOLD, TYPE, DATA, ASSERTION, TEST) \ 
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{\ 
\ 
HASH_ASSERT_OWNED (TABLE, FOLD) \ 
\ 
(DATA) = (TYPE) HASH_GET_FIRST (TABLE, hash_calc_hash (FOLD, TABLE)) ;\ 
HASH_ASSERT_VALID (DATA) ;\ 
\ 
while ((DATA) != NULL) {\ 
ASSERTION; \ 
if (TEST) {\ 
break;\ 
} else {\ 
HASH ASSERT VALID (HASH GET NEXT (NAME, DATA)) ;\ 
(DATA) = (TYPE) HASH GET NEXT (NAME, DATA) ;\ 
}\ 
}\ 
} 


[RRR KKK KTR RTT KK TT ZIZI ZI LZ ZI GLI ZIZIZZIZ LI LIZZZIZZ LZ TIIIZ ZON: 


Looks for an item in all hash buckets. */ 


#define HASH_SEARCH_ALL (NAME, TABLE, TYPE, DATA, ASSERTION, TEST) 
do { 
ulint 13333; 
for (i3333 = (TABLE) -»n cells; i3333--; ) { 
(DATA) = (TYPE) HASH GET FIRST (TABLE, i3333) ; 
while ((DATA) != NULL) { 
HASH ASSERT VALID (DATA) ; 
ASSERTION; 
if (TEST) { 
break; 
} 
(DATA) = (TYPE) HASH_GET_NEXT (NAME, DATA) ; 
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\ 
if ((DATA) != NULL) { \ 
break; \ 
} \ 
} \ 
} while (0) 
/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk//kk 
Gets the nth cell in a hash table. 
@return pointer to cell */ 
UNIV_INLINE 
hash cell t* 
hash get nth cell 人 
/*==============*/ 
hash table t* table, /*!< in: hash table */ 
ulint . n) ; /*1« in: cell index */ 
A HE e he deck ede ek ee dede ee e e e eed ede dee III koi e e He He e e ke eek e He e e eek f Lek 
Clears a hash table so that all the cells become empty. */ 
UNIV_INLINE 
void 
hash_table_clear ( 
[*====2222 
hash_table_t* table) ; l /*1« in/out: hash table */ 


/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk//kk 
Returns the number of cells in a hash table. 

@return number of cells */ 

UNIV_INLINE 

ulint 


hash_get_n_cells ( 


hash_table_t* table) ; /*1« in: table */ 


[OI e e de ck oe e de e ee e ke de jede dee jeje LIL: ke dede ek eee e e III f ek 
Deletes a struct which is stored in the heap of the hash table, and compacts 
the heap. The fold value must be stored in the struct NODE in a field named 
'fold'. */ 


#define HASH DELETE AND COMPACT (TYPE, NAME, TABLE, NODE) \ 


do {\ 
TYPE* nodelll;^ 
TYPE* top nodelll;^ 
hash cell t* cell111;\ 
ulint foldl11;\ 
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N 
foldlll = (NODE) ->fold;\ 
N 
HASH DELETE (TYPE, NAME, TABLE, foldlll, NODE) ;\ 
N 
top nodelll = (TYPE*) mem heap get top (V 
hash get heap (TABLE, foldlll) ,\ 
sizeof (TYPE)) ;\ 
\ 
/* If the node to remove is not the top node in the heap, compact the\ 
heap of nodes by moving the top node in the place of NODE. */\ 
\ 
if (NODE != top nodelll) {\ 
\ 
/* Copy the top node in place of NODE */\ 
\ 
* (NODE) = *top_nodell1;\ 
\ 
Celllll = hash get nth cell (TABLE, \ 
hash calc hash (top nodelll-»fold, TABLE)) ;\ 
N 
/* Look for the pointer to the top node, to update it */\ 
N 
if (celllll->node == top nodelll) {\ 
/* The top node is the first in the chain */\ 
N 
celllll->node = NODE;\ 
} else {\ 
/* We have to look for the predecessor of the top\ 
node */\ 
nodelll = celll1l1->node;\ 
\ 
while (top_nodelll != HASH GET NEXT (NAME, nodel11)) 
{\ 
nodelll = HASH GET NEXT (NAME, nodelll) ;\ 
JN 
N 
/* Now we have the predecessor node */\ 
N 
nodell1->NAME = NODE; 
JN 
JN 
N 
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/* Free the space occupied by the top node */\ 


mem heap free top (hash get heap (TABLE, foldlll) , sizeof (TYPE)) ;\ 
) while (0) 


#ifndef UNIV HOTBACKUP 
[KIT IK IK ede TOK e e e e eoe je he e e eee e he he he ke e de he he he e he he ke ehe he ck IT IR IO TOK kk e deje ke KR IK KK f foe 


Move all hash table entries from OLD TABLE to NEW TABLE. */ 


fdefine HASH MIGRATE (OLD TABLE, NEW TABLE, NODE TYPE, PTR NAME, FOLD FUNC) \ 


do {\ 
ulint i2222;\ 
ulint cell_count2222;\ 
\ 
cell count2222 = hash get n cells (OLD TABLE) ;\ 
N 
for (i2222 = 0; i2222 « cell count2222; i2222++) {\ 
NODE TYPE* node2222 = HASH GET FIRST ((OLD TABLE) , i2222) ;\ 
N 
while: (node2222) {\ 
NODE TYPE* next2222 = node2222->PTR_NAME; \ 
ulint fold2222 = FOLD_FUNC (node2222) ;\ 
\ 
HASH INSERT (NODE TYPE, PTR NAME, (NEW TABLE) ,\ 
fold2222, node2222) ;\ 
N 
node2222 = next2222;\ 
}\ 
}\ 
} while (0) 


[Coke eee eec eee koe eode oe eoe ook IOI deed dedo LZ ELLI III ta I BK KK | | ee 


Gets the mutex index for a.fold value in a hash table. 
@return mutex number */ 

UNIV_INLINE 

ulint 


hash_get_mutex_no ( 


hash_table_t* table, /*!< in: hash table */ 
ulint fold) ; /*!< in: fold */ 
[III IF RFR IR TOR TIKIT TOI TOR TOR TOR TTI TOR TOI TR TOR ITH TR ICR KK KK RK OR KR RRR il 
Gets the nth heap in a hash table. 
@return mem heap */ 
UNIV_INLINE 
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mem_heap_t* 


hash_get_nth_heap ( 


hash table t* table, /*!< in: hash table */ 

ulint i); /*1« in: index of the heap */ 
/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/ i. 
Gets the heap for a fold value in a hash table. 
@return mem heap */ 
UNIV_INLINE 
mem heap t* 


hash get heap ( 


hash table t* table, /*!< in: hash table */ 
ulint fold) ; /*!< in: fold */ 
[OI IIR III II IOI II IOI III I] xk 
Gets the nth mutex in a hash table. 
@return mutex */ 
UNIV_INLINE 
mutex_t* 


hash_get_nth_mutex ( 


hash table t* table, /*!< in: hash table */ 

ulint i); /*1< in: index of the mutex */ 
[RIG e e e e e de de e e de de de de de III GOI OIG ke de de de de e e ke e ke k e f tok 
Gets the mutex for a fold value in a hash table. 
@return mutex */ 
UNIV_INLINE 
mutex_t* 


hash_get_mutex ( 





hash table t* table, /*!< in: hash table */ 
ulint fold) ; /*!« in: fold */ 
[RR III IG OIG e ae e de e de dek k k k k k GIG GUZZI 
Reserves the mutex for a fold value in a.hash table. */ 
UNIV INTERN 
void 


hash mutex enter ( 


hash table t* table, /*!« in: hash table */ 

ulint fold) ; /*!< in: fold */ 
J 2 e e e e e e de e He LLLLL e e AE e III III IOI IOI IOI LL AI. 
Releases the mutex for a fold value in a hash table. */ 
UNIV INTERN . 


void 
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hash mutex exit ( 
/*============*/ 

hash table t* table, /*1« in: hash table */ 

ulint fold) ; /*!< in: fold */ 
RGIS ecelesie doceo LITI TTT kkk kkk f fe 
Reserves all the mutexes of a hash table, in an ascending order. */ 
UNIV INTERN 
void 


hash mutex enter all 人 





hash table t* table) ; /*1< in: hash table */ 
[RR RIKI RT RIT IKK EERE RIT TT REI RRR RIE RITTER REE EK LLLI i 
Releases all the mutexes of a hash table. */ 
` UNIV INTERN 
void 


hash mutex exit all( 


/*=======~=========*/ 
hash table t* table) ; /*1« in: hash table */ 
#else /* !UNIV_HOTBACKUP */ 
# define hash_get_heap (table, fold) ((table) ->heap) 
# define hash_mutex enter (table, fold) ((void) 0) 
# define hash_mutex exit (table, fold) ((void) 0) 


#endif /* !UNIV_HOTBACKUP */ 
struct hash cell struct( 


void* node; /*1« hash chain node, NULL if none */ 


/* The hash table structure */ 
struct hash table struct ( 


#if defined UNIV AHI DEBUG || defined UNIV DEBUG 
# ifndef UNIV HOTBACKUP 
ibool adaptive;/* TRUE if this is the hash table of the 


adaptive hash index */ 
# endif /* !UNIV_HOTBACKUP */ 


#endif /* UNIV_AHI_DEBUG || UNIV_DEBUG */ 
ulint n_cells;/* number of cells in the hash table */ 
hash cell t* array; /*!« pointer to cell array */ 

#ifndef UNIV HOTBACKUP 
ulint n mutexes;/* if mutexes != NULL, then the number of 


mutexes, must be a power of 2 */ 
mutex t* mutexes;/* NULL, or an array of mutexes used to 
protect segments of the hash table */ 


mem heap t** heaps; /*!« if this is non-NULL, hash chain nodes for 
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external chaining can be allocated from these 
memory heaps; there are then n mutexes many of 
these heaps */ 

fendif /* 1UNIV HOTBACKUP */ 


mem heap t* heap; 
ulint magic n; 
}; 
#define HASH TABLE MAGIC N 76561114 


fifndef UNIV NONINL 
finclude "hash0hash.ic" 


#endif 
#endif 


haOha.h 


J F F k k k k de k de ke ke de e e e de de e e e de de e e de de de de de e he de e e e e e de de de de e e he e de de e e de He He He He He He He He de e de de ke ke ke ke ke k k de ke ke keke ke k k 


Copyright (c) 1994, 2009, Innobase Oy. All Rights Reserved. 


This program is free software; you can redistribute it and/or modify it under 
the terms of the GNU General Public License as published by the Free Software 


Foundation; version 2 of the License. 


This program is distributed in the hope that it will be useful, but WITHOUT 
ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS 
FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. 


You should have received a copy of the GNU General Public License along with 
this program; if not, write to the Free Software Foundation, Inc., 59 Temple 
Place, Suite 330, Boston, MA 02111-1307 USA 


kkkkkkkkkkkkkkkkkkkkkkkkkkk khkkh k e oe e he kkk kkk he e e oe he e e e e he k e k ke k kek de de ke de e ke keke ke dek k k kk k / 


[RR I TR I III RIT ITT RTT KR TK RIT KR RK KR KR KK | fk 


@file include/ha0ha.h 
The hash table with external chains 


Created 8/18/1994 Heikki Tuuri 


Fe e ee e IK I TK IK Fe e He he eee TK IK e e e e e e e oe e he e e e e he eoe e de e e e e e e oe ER e d 


#ifndef ha0ha h 
#define ha0ha h 
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finclude "univ.i" 


#include “hashOhash.h" 
#include "page0types.h" 
#include "buf0types.h" 


J FE e he de ke eee e kk e e kk ck de de de ke ke e ke ke kc kc kc kc k ck ck ZZZ ZI ZI ZLI ZZZ ook | kk 


Looks for an element in a hash table. 

@return pointer to the data of the first hash table node in chain 
having the fold number, NULL if not found */ 

UNIV INLINE 

void* 


ha search and get data ( 


hash table t* table, /*!< in: hash table */ 
ulint fold) ; /*1« in: folded value of the searched data */ 
[RRR ck ke e e de de kc de de de He de ck ck ck de de ck ck kk ck ck ck kck ck ck ck de de de de de kck kck kck k kc k ck kk kk ok f LE 
Looks for an element when we know the pointer to the data and updates 
the pointer to data if found. */ 
UNIV INTERN 
void 


ha search, and update if found func ( 


/*================~===============*/ 
hash table t* table, /*!« in/out: hash table */ 
ulint fold, /*1« in: folded value of the searched data */ 
void* data, /*!< in: pointer to the data */ 
fif defined UNIV AHI DEBUG | | defined UNIV_DEBUG l 
buf_block_t* new block,/*1« in: block containing new_data */ 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 
void* new data) ;/*!« in: new pointer to the data */ 
#if defined UNIV AHI DEBUG || defined UNIV DEBUG 


/** Looks for an element when we know the pointer to the data and 
updates the pointer to data if found. 


@param table in/out: hash table 

@param fold in: folded value of the searched data 
@param data in: pointer to the data 

@param new block in: block containing new data 

@param new data in: new pointer to the data */ 


# define ha search and update if found (table,fold,data,new block,new data) \ 
ha search and update if found func (table,fold,data,new block,new data) 

#else /* UNIV AHI DEBUG || UNIV DEBUG */ 

/** Looks for an element when we know the pointer to the data and 


updates the pointer to data if found. 
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(param table in/out: hash table 

@param fold in: folded value of the searched data 
@param data in: pointer to the data 

@param new block ignored: block containing new data 
@param new data in: new pointer to the data */ 


# define ha search and update if found (table,fold,data,new block,new data) \ 
ha search and update if found func (table,fold,data,new data) 

#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 

Jf khoe e e e de he de e IK de e e e he he e e de he e e he e e e he e e e he oe e e he he he e e e ehe e e e ec e e de e ke de e e de e ee | foe 

Creates a hash table with at least n array cells. The actual number 

of cells is chosen to be a prime number slightly bigger than n. 

@return own: created table */ 

UNIV_INTERN 

hash_table t* 

ha_create_func ( 


/*ecomsescescent / 


ulint n, /*1< in: number of array cells */ 
#ifdef UNIV SYNC DEBUG 
ulint mutex level, /*1« in: level of the mutexes in the latching 


order: this is used in the debug version */ 
#endif /* UNIV SYNC DEBUG */ 
ulint n mutexes) ; /*1« in: number of mutexes to protect the 
hash table: must be a power of 2, or 0 */ 

#ifdef UNIV SYNC DEBUG 
/** Creates a hash table. 
@return own: created table 
@param n_c in: number of array cells. The actual number of cells is 
chosen to be a slightly bigger prime number. 
@param level in: level of the mutexes in the latching order 
@param n_m in: number of. mutexes to protect the hash table; 

must be a power of 2, or 0 */ 
# define ha create (n c,n m,level) ha create func (n c,level,n m) 
#else /* UNIV SYNC DEBUG */ 
/** Creates a hash table. 
@return own: created table 
@param n_c in: number of array cells. The actual number of cells is 
chosen to be a slightly bigger prime number. 
@param level in: level of the mutexes in the latching order 
@param n_m in: number of mutexes to protect the hash table; 

must be a power of 2, or 0 */ 
# define ha create (n c,n m,level) ha create func (n c,n m) 
#endif /* UNIV SYNC DEBUG */ 


[RII e ee e de he ke e e he e he e e e ehe e e e e e ehe he he e ke e e ek he e e e ck e ede eee dede je eee e eee f f RK 


www.TopSage.com 


374 BH RD 


Empties a hash table and frees the memory heaps. */ 
UNIV INTERN 


hash table t* table) ; /*1« in, own: hash table */ 


[kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/ kk 


Inserts an entry into a hash table. If an entry with the same fold number 

is found, its node is updated to point to the new data, and no new node 

is inserted. 

@return TRUE if succeed, FALSE if no more memory could be allocated */ 
UNIV_INTERN 

ibool 


ha insert for fold func ( 





hash table t* : table, /*!< in: hash table */ 

ulint fold, /*1< in: folded value of data; if a node with 
the same fold value already exists, it is 
updated to point to the same data, and no new 
node is created! */ 


#if defined UNIV AHI DEBUG || defined UNIV DEBUG 
buf block t* à block, /*I« in: buffer block containing the data */ 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ i 
void* data) ; /*!< in: data, must not be NULL */ 
fif defined UNIV AHI DEBUG ||.defined UNIV DEBUG 
/** 


Inserts an entry into a hash table. If an entry with the same fold number 
is found, its node is updated to point to the new data, and no new node 


is inserted. 


@return TRUE if succeed, FALSE if no more memory could be allocated 
@param t in: hash table 

@param f in: folded value of data 

@param b in: buffer block containing the data 

@param d in: data, must not be NULL */ 

# define ha_insert_for_fold (t,f,b,d) ha_insert_for_fold_fune (t,f,b,d) 
#else /* UNIV AHI DEBUG || UNIV DEBUG */ 

/** 


Inserts an entry into a hash table. If an entry with the same fold number 
is found, its node is updated to point to the new data, and no new node 
is inserted. 

@return TRUE if succeed, FALSE if no more memory could be allocated 


@param t in: hash table 
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@param f in: folded value of data 
@param b ignored: buffer block containing the data 
@param d in: data, must not be NULL */ 


# define ha insert for fold (t,f,b,d) ha insert for fold func (t,f,d) 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 


[RII III IOI II IOI IG IGG III IG io kK / / ee 

Looks for an element when we know the pointer to the data and deletes 
it from the hash table if found. 

@return TRUE if found */ 

UNIV INLINE 

ibool 


ha_search_and_delete_if found ( 





hash table t* table, /*!< in: hash table */ 
ulint fold, /*1« in: folded value of the searched data */ 
void* data) ; /*1« in: pointer to the data */ 


#ifndef UNIV HOTBACKUP 
/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkikkkkkikkikkkkkkkkkkkkk//kk 
Removes from the chain determined by fold all nodes whose data pointer 
points to the page given. */ 

UNIV_INTERN 

void 


ha_remove_all_nodes_to_page ( 


j———MÁ 
hash table t* table, /*!< in: hash table */ 
ulint fold, /*1« in: fold value */ 
const page t* page) ; /*!« in: buffer page */ 


JOE ee e e e ee e ehe ke ke ke ke ke ke ke ke kk ck ck ck ck ck ck ck ck ck ck ck ck ke e e de e e e e e e e e e e e e e e e e e ek | Jk 
Validates a given range of the cells in hash table. 

@return TRUE if ok */ 

UNIV_INTERN 


ibool 

ha_validate ( 

/*========#*/ 
hash table t* table, /*1< in: hash table */ 
ulint start index, /*|1« in: start index */ 
ulint end index) ; /*1< in: end index */ 


Joe e ee ke ke ke e e e ke he ke ke ke ke ke kk ck ck kkk e e e e e e e e e e e e e e e e eon nx 
Prints info of a hash table. */ 

UNIV INTERN 

void 


ha print info ( 
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FILE* file,  /*!« in: file where to print */ 
hash table t* . table) ; . /*1« in: hash table */ 
#endif /* !UNIV HOTBACKUP */ 


/** The hash table external chain node */ 


typedef struct ha node struct ha node t; 


/** The hash table external chain node */ 


struct ha node struct ( 


ha node t* next;  /*!« next chain node.or NULL if none */ 
#if defined UNIV AHI DEBUG || defined UNIV DEBUG 

buf block t* block; /*!< buffer block containing the data, or NULL */ 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 

void* data; /*!« pointer to the data */ 

ulint fold; /*1« fold value for the data */ 


#ifndef UNIV HOTBACKUP 

/** Assert that the current thread is holding the mutex protecting a 
hash bucket corresponding to.a fold value. 

@param table in: hash table 


@param fold in: fold value */ 
# define ASSERT HASH MUTEX OWN (table, fold) 
ut ad (! (table) ->mutexes || mutex own (hash get mutex (table, fold))) 


#else /* !UNIV_HOTBACKUP */ 

/** Assert that the current thread is holding the mutex protecting a 
hash bucket corresponding to a fold value. 

@param table in: hash table 

@param fold in: fold value */ 

# define ASSERT HASH MUTEX OWN (table, fold)  ((void) 0) 

#endif /* !UNIV HOTBACKUP */ 


#ifndef UNIV NONINL 
#include "ha0ha.ic" 
fendif 


fendif 


haha ic 


S Kk kkk kkk keok k k k AZZ RRR RRR RRR KK IK RRR ke ke ce check k k ck k k k ck LELE LE LE k k k k k k k k k k ck KER EKER 
Copyright (c) 1994, 2009, Innobase Oy. All Rights Reserved. 
This program is free software; you can redistribute it and/or modify it under 
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the terms of the GNU General Public License as published by the Free Software 


Foundation; version 2 of the License. 


This program is distributed in the hope that it will be useful, but WITHOUT 
ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS 
FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. 


You should have received a copy of the GNU General Public License along with 
this program; if not, write to the Free Software Foundation, Inc., 59 Temple 
Place, Suite 330, Boston, MA 02111-1307 USA 


ttt tee kk k k k k 


/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/j jkk 


@file include/ha0ha.ic 
The hash table with external chains 


Created 8/18/1994 Heikki Tuuri 


kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/ 


#include "ut0ürnd.h" 


#include "memÜümem.h" 


/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/j]/kk 


Deletes a hash node. */ 
UNIV INTERN 


void 
ha delete hash node ( 
人 
hash table t* table, /*1< in: hash table */ 
ha node t* del node) ; /*1« in: node to be deleted */ 


[kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/jj/kk 
Gets a hash node data. 

@return pointer to the data */ 

UNIV_INLINE 

void* 


ha node get data ( 
ha node t* node)  /*!« in: hash chain node */ 


return (node-»data) ; 


www.TopSage.com 


378 RED 





[Ck ke dede dee eed dede eec dodo oko deed III IOI OI III IOI KAI ICR IOI IK I i f ek 


Sets hash node data. */ 
UNIV INLINE 
void 
ha node set data func ( 
/*==================*/ 
ha node t* node,  /*!« in: hash chain node */ 
#if defined UNIV AHI DEBUG || defined UNIV DEBUG 
buf block t* block, /*!< in: buffer block containing the data */ 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 
void* data)  /*!« in: pointer to the data */ 
{ 
#if defined UNIV_AHI_DEBUG || defined UNIV_DEBUG 
node->block = block; 
#endif /* UNIV_AHI_DEBUG || UNIV_DEBUG */ 


node->data = data; 


#if defined UNIV_AHI_DEBUG || defined UNIV_DEBUG 
/** Sets hash node data. 


@param n in: hash chain node 
@param b in: buffer block containing the data 
@param d in: pointer to the data */ 


# define ha node set data (n,b,d) ha node set data func (n,b,d) 
' #else /* UNIV AHI DEBUG || UNIV DEBUG */ 
/** Sets hash node data. 


@param n in: hash chain node 
@param b in: buffer block containing the data 
@param d in: pointer to the data */ 


# define ha node set data (n,b,d) ha node set data func (n,d) 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 


[III II IOI IOC III II TOO OR KORR RR TI IIR TOR IOI TTI HR AI f [e 


Gets the next node in a hash chain. 
@return next node, NULL if none */ 
UNIV_INLINE 

ha_node_t* 

ha_chain_get_next ( 


ha_node_t* node) /*!< in: hash chain node */ 


return (node->next) ; 
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[III III ITI III III II I Rk ME 
Gets the first node in a hash chain. 

@return first node, NULL if none */ 

UNIV_INLINE 

ha_node_t* 


ha_chain_get_first ( 


hash table t* table, /*!« in: hash table */ 
ulint fold) /*1< in: fold value determining the chain */ 


return ((ha node t*) 
hash get nth cell (table, hash calc hash (fold, table)) -»node) ; 


[RKTT RTI RIKI TT KK IKK EI KEK ZIE IALIA ZI REIKI RRR RIK | Lk 
Looks for an element in a hash table. 

@return pointer to the first hash table node in chain having the fold 
number, NULL if not found */ 

UNIV_INLINE 

ha node t* 


ha search ( 


/*======~*/ 

hash table t* table, /*!< in: hash table */ 

ulint fold) /*!« in: folded value of the searched data */ 
1 

ha node t* node; 


ASSERT HASH MUTEX OWN (table, fold) ; 
node - ha chain get first (table, fold) ; 


while (node) ( 
if (node->fold == fold) { 
return (node) ; 
node = ha_chain_get_next (node) ; 


return (NULL) ; 


[RII III RRR RRR RIKIII EERE EERE ZZZIA LAZ ZLIZZZZZZZZZZZZZZTIZZA NEL) 
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Looks for an element in a hash table. 

@return pointer to the data of the first hash table node in chain 
having the fold number, NULL if not found */ 

UNIV INLINE 

void* 


ha; search and get data ( 


/#===================#/ 
hash table t* table, /*!< in: hash table */ 
ulint fold) /*1« in: folded value of the searched data */ 
( . 
ha node t* node; 


ASSERT HASH MUTEX OWN (table, fold) ; 


node - ha chain get first (table, fold) ; 


while (node) { 
if (node->fold == fold) { 


return (node->data) 


we 


node = ha_chain_get_next (node) ; 


return (NULL) ; 


[RRR de de de de de de de de de de de de de de de de de de de de He de de de TTI TI ZII de e e e de de KR ke ke ke ke k k k AE 

Looks for an element when we know the pointer to the data. 

@return pointer to the hash table node, NULL if not found in the table */ 
UNIV_INLINE 

ha node t* 


ha search with data ( 


i 
hash table t* table, /*!< in: hash table */ 
ulint fold, /*1« in: folded value of the searched data */ 
void* data) /*1« in: pointer to the data */ 
{ 
ha node t* node; 


ASSERT HASH MUTEX OWN (table, fold) ; 
node = ha chain get first (table, fold) ; 
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while (node) ( 
if (node->data == data) { 


return (node) ; 


node = ha_chain_get_next (node) ; 


return (NULL) ; 


[RR dR OR ROR IO ROG ook a ok ok ik ak ek | jkk 


Looks for an element when we know the pointer to the data, and deletes 
it from the hash table, if found. 

@return TRUE if found */ 

UNIV_INLINE 

ibool 


ha search and delete if found ( 


/*==========================*/ 
hash table t* table, /*!< in: hash table */ 
ulint fold, /*1« in: folded value of the searched data */ 
void* data) /*!< in: pointer to the data */ 
{ 
ha_node_t* node; 


ASSERT HASH MUTEX_OWN (table, fold) ; 
node = ha_search_with_data (table, fold, data) ; 


if (node) { 
ha_delete_hash_node (table, node) ; 


return (TRUE) ; 


return (FALSE) ; 
haOha.c 
[Fkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk kkkh kkkh kkhk kkk kkkhh hkkk kk k kk 


Copyright (c) 1994, 2009, Innobase Oy. All Rights Reserved. 
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This program is free software; you can redistribute it and/or modify it under 
the terms of the GNU General Public License as published by the Free Software 


Foundation; version 2 of the License. 


This program is distributed in the hope that it will be useful, but WITHOUT 
ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS 
FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. 


You should have received a copy of the GNU General Public License along with 
this program; if not, write to the Free Software Foundation, Inc., 59 Temple 
Place, Suite 330, Boston, MA 02111-1307 USA 


Fe e e e de e e e e e e e de de de de de de de de de de de de de de de de e de de de de de III IOI e e de de de IO III de de de de e de de de de de de de de de de de de de e de ke ke ke / 


JE e e e he e de e e de e e de e e e de e de de de e de de de de de e de e e e e e de e e de de de e de de e de e de de e e de de de de e de de de e de de de ie e ke ke ke e f f ik 


@file ha/ha0ha.c 
The hash table with external chains 


Created 8/22/1994 Heikki Tuuri 


Fe e e e de e e e e e e e de de e de de de de IOI de e e e e e e e de de de de de IO e e de e de de e e e de de de de de de de de e de e de e e N] 


#include "ha0ha.h" 
#ifdef UNIV_NONINL 
#include "ha0ha.ic" 


#endif 


#ifdef UNIV_DEBUG 

# include "bufObuf.h" 

#endif /* UNIV DEBUG */ 
#ifdef UNIV SYNC DEBUG 

# include "btr0sea.h" 

#endif /* UNIV_SYNC_DEBUG */ 
#include "page0page.h" 


[RR e e e e e de de de e de e de e de Ik ok ke | J LI 
Creates a hash table with at least n array cells. The actual number 
of cells is chosen to be a prime number slightly bigger than n. 
@return own: created table */ 

UNIV INTERN 

hash table t* 


ha create func ( 


ulint n, /*1< in: number of array cells */ 
#ifdef UNIV SYNC DEBUG 
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ulint mutex level, /*1« in: level of the mutéxes in the latching 
order: this is used in the debug version */ 
#endif /* UNIV SYNC DEBUG */ 
ulint n mutexes) /*!< in: number of mutexes to protect the 
hash table: must be a power of 2, or 0 */ 


t 

hash table t* table; 
#ifndef UNIV HOTBACKUP 

ulint i; 


#endif /* !UNIV_HOTBACKUP */ 


ut ad (ut is 2pow (n mutexes)) ; 


table = hash create (n) ; 


fif defined UNIV AHI DEBUG || defined UNIV DEBUG 

# ifndef UNIV HOTBACKUP 
table->adaptive = TRUE; 

# endif /* !UNIV_HOTBACKUP */ 

#endif /* UNIV_AHI_DEBUG || UNIV_DEBUG */ 
/* Creating MEM HEAP BTR SEARCH type heaps can potentially fail, 
but in practise it never should in this case, hence the asserts. */ 


if (n mutexes == 0) { 
table->heap = mem heap create in btr search ( 
ut min (4096, MEM MAX ALLOC IN BUF)) ; 
ut a (table->heap) ; 
return (table) ; 
#ifndef UNIV HOTBACKUP 
hash create mutexes (table, n mutexes, mutex level) ; 
table->heaps = mem alloc (n mutexes * sizeof (void*)) ; 
for (i = 0; i < n mutexes; i++) { 
table->heaps[i] = mem heap create in btr search (4096) ; 
ut a (table-»heaps[i]) ; 


#endif /* !UNIV_HOTBACKUP */ 


return (table) ; 
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[RIT e e ke e e e e e e e e IR EE EEEE E KR RRR RRR RRR RR RR RRR KR f foo 
Empties a hash table and frees the memory heaps. */ 

UNIV INTERN 

void 


ha clear ( 


/*=====*/ 

hash table t* table) /*!< in, own: hash table */ 
1 

ulint i: 

ulint n; 


#ifdef UNIV_SYNC_DEBUG 
ut_ad (rw_lock_own (&btr_search_latch, RW_LOCK_EXCLUSIVE)) ; 
#endif /* UNIV_SYNC_DEBUG */ 


#ifndef UNIV HOTBACKUP 
/* Free the memory heaps. */ 


n = table-»n mutexes; 


for (i = 0; i« n; i++) { 
mem heap free (table->heaps[i]) ; 


} 
#endif /* !UNIV_HOTBACKUP */ 


/* Clear the hash table. */ 
n = hash_get_n_cells (table) ; 


for (i = 0; i <n; i++) { 
hash_get_nth_cell (table, i) ->node = NULL; 


J E e de de de e he e e e e e He de de de de III RIOT I e ke IORI IOI ROTO ROTI II IIT KR ££ El 

Inserts an entry into a hash table. If an entry with the same fold number 

is found, its node is updated to point to the new data, and no new node 

is inserted. l 

@return TRUE if succeed, FALSE if no more memory could be allocated */ 
UNIV_INTERN 

ibool 


ha insert for fold func ( 


hash table t* table, /*!< in: hash table */ 
ulint fold, /*i« in: folded value of data; if a node with 


the same fold value already exists, it is 
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updated to point to the same data, and no new 


node is created! */ 


#if defined UNIV AHI DEBUG || defined UNIV DEBUG 

buf block t* block, /*!< in: buffer block containing the data */ 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 

void* data) /*1« in: data, must not be NULL */ 
1 

hash cell t* cell; 

ha node t* node; 

ha node t* prev node; 

ulint hash; 


ut ad (table && data) ; 


#if defined UNIV AHI DEBUG || defined UNIV DEBUG 
ut a (block->frame == page align (data)) ; 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 


ASSERT HASH MUTEX OWN (table, fold) ; 


hash 


hash calc hash (fold, table) ; 


cell - hash get nth cell (table, hash) ; 


prev node = cell->node; 


while (prev node != NULL) { 
if (prev node-»fold == fold) { 
#if defined UNIV AHI DEBUG || defined UNIV DEBUG 


# ifndef UNIV_HOTBACKUP 
if (table->adaptive) { 
buf block t* prev block = prev_node->block; 
ut a (prev block-»frame 
== page align (prev node-»data)) ; 
ut a (prev block-»n pointers > 0) ; 
prev block-»n pointers--; 
block-»n pointers-t*t; 
} 
# endif /* !UNIV_HOTBACKUP */ 


prev_node->block = block; 
#endif /* UNIV_AHI_DEBUG || UNIV DEBUG */ 


prev node-»data = data; 


return (TRUE) ; 
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prev_node = prev_node->next; 


/* We have to allocate a new chain node */ 


fold) , sizeof (ha node t)) ; 


node - mem heap alloc (hash get heap (table, 


if (node == NULL) { 
/* It was a btr search type memory heap and at the moment 


no more memory could be allocated: return */ 


ut_ad (hash_get_heap (table, fold) ->type & MEM_HEAP_BTR_SEARCH) ; 


return (FALSE) ; 


ha_node_set_data (node, block, data) ; 


#if defined UNIV_AHI_DEBUG || defined UNIV_DEBUG 


# ifndef UNIV_HOTBACKUP 
if (table->adaptive) { 
block->n_pointerst+; 


} 
# endif /* IUNIV HOTBACKUP */ 


#endif /* UNIV AHI DEBUG |} UNIV DEBUG */ 


node->fold = fold; 


node->next NULL; 
prev node = cell->node; 
if (prev node == NULL) { 


cell->node = node; 


return (TRUE) ; 


} 

while (prev_node->next I= NULL) { 
prev_node = prev_node->next; 

} 
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prev_node->next = node; 


return (TRUE) ; 


[Zk kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk*/j]/kk 


Deletes a hash node. */ 
UNIV_INTERN 


void 
ha_delete_hash_node ( 
/*================*/ 
hash table t* table, /*1« in: hash table */ 
ha node t* del node) /*1< in: node to be deleted */ 
( : 
fif defined UNIV AHI DEBUG || defined UNIV DEBUG 


# ifndef UNIV_HOTBACKUP 
if (table->adaptive) { 
ut_a (del_node->block->frame = page_align (del_node->data)) ; 
ut a (del_node->block->n_pointers > 0) ; 


del_node->block->n_pointers--; 


} 
# endif /* !UNIV_HOTBACKUP */ 
#endif /* UNIV_AHI_DEBUG || UNIV_DEBUG */ 


HASH_DELETE_AND_COMPACT (ha_node_t, next, table, del_node) ; 


[kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/j/kk 

Looks for an element when we know the pointer to the data, and updates 
the pointer to data, if found. */ 

UNIV_INTERN 

void 


ha search and update if found func ( 


/*=====~=========================*#*/ 
hash table t* table, /*!< in/out: hash table */ 
ulint fold, /*1« in: folded value of the searched data */ 
void* data, /*1< in: pointer to the data */ 
fif defined UNIV AHI DEBUG || defined UNIV DEBUG 
buf block t* new block,/*!« in: block containing new data */ 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 
void* new data) /*1« in: new pointer to the data */ 
{ 
ha_node_t* node; 
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ASSERT HASH MUTEX OWN (table, fold) ; 
fif defined UNIV AHI DEBUG || defined UNIV DEBUG 

ut a (new block-»frame == page align (new data)) ; 
#endif /* UNIV AHI DEBUG || UNIV DEBUG */ 


node - ha search with data (table, fold, data) ; 


if (node) ( 
#if defined UNIV AHI DEBUG || defined UNIV DEBUG 
# ifndef UNIV HOTBACKUP 
if (table->adaptive) { 
ut_a (node->block->n_pointers > 0) ; 
node->block->n_pointers--; 
new_block->n_pointers++; 
} 
# endif /* IUNIV HOTBACKUP */ 


node->block = new_block; 
#endif /* UNIV_AHI_DEBUG || UNIV_DEBUG */ 


node->data = new data; 


#ifndef UNIV_HOTBACKUP 

[FIFI IR II ee ek dede dee e II IORI ITO ITO II TORII IIR TCR KI TR RICK IR K RK f fe 
Removes from the chain determined by fold all nodes whose data pointer 
points to the page given. */ 

UNIV_INTERN 


void 
ha_remove_all_nodes_to_page ( 
/*eeeeseesssssessssssssssst / 
hash table t* table, /*!< in: hash table */ 
ulint fold,  /*!« in: fold value */ 
const page t* page) /*!< in: buffer page */ 
1 
ha node t* node; 


ASSERT HASH MUTEX OWN (table, fold) ; 
node = ha chain get first (table, fold) ; 


while (node) ( 
if (page align (ha node get data (node)) == page) { 
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/* Remove the hash node */ 
ha delete hash node (table, node) ; 


/* Start again from the first, node in the chain 
because the deletion may compact the heap of 


nodes and move other nodes! */ 


node - ha chain get first (table, fold) ; 
) eise ( 


node - ha chain get next (node) ; 


} 
#ifdef UNIV_DEBUG 
/* Check that all nodes really got deleted */ 


node = ha_chain_get_first (table, fold) ; 


while (node) { 
ut_a (page_align (ha_node_get_data (node)) != page) ; 


node = ha_chain_get_next (node) ; 
} 
#endif 
} 


/kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/j jkk 
Validates a given range of. the cells. in hash table. 

@return TRUE if ok */ 

UNIV_INTERN 


ibool 
ha_validate ( 
/*========*/ 
hash table t* table, /*1« in: hash table */ 
ulint start index, /*4< in: start index */ 
ulint end index) /*1« in: end index */ 
1 
hash cell t* cell; 
ha node t* node; 
ibool ok = TRUE; 
ulint i; 


ut a (start index <= end index) ; 


ut a (start index « hash get n cells (table)) ; 
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ut_a (end_index < hash_get_n_cells (table)) ; 
for (i = start_index; i <= end_index; i++) { 


cell 


hash_get_nth_cell (table, i) ; 


node cell-»node; 
while (node) { 
if (hash calc hash (node->fold, table) !- i) { 
ut print timestamp (stderr) ; 
fprintf (stderr, 
"InnoDB: Error: hash table node" 
"fold value $1u does not\n" 
"InnoDB: match the cell number $1u. Wn", 
(ulong) node->fold, (ulong) i); 


ok = FALSE; 


node = node->next; 


} 


return (ok) ; 


J 7 e e e e e he e he e he He e he e e He e e e e e He e de Fe IOI IO He e de He e He e e e e He e de de e de e de ITI TK IK | E 


Prints info of a hash table. */ 
UNIV_INTERN 
void 


ha_print_info ( 


FILE* file, /*!< in: file where to print */ 
hash table t* table) /*!< in: hash table */ 
1 


#ifdef UNIV DEBUG 
/* Some of the code here is disabled for performance reasons in production 


builds, see http://bugs.mysql.com/36941 */ 
#define PRINT USED CELLS 
#endif /* UNIV DEBUG */ 


#ifdef PRINT USED CELLS 
hash cell t* cell; 
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ulint 


ulint 


i; 


#endif /* PRINT USED CELLS */ 


ulint 


n bufs; 


#ifdef PRINT USED CELLS 


for 


) 


0; i « hash get n cells (table) ; i++) { 


cell - hash get nth cell (table, i) ; 


if (cell-»node) ( 


cells+t; 


#endif /* PRINT_USED_CELLS */ 


fprintf (file, "Hash table size %lu", 


(ulong) hash_get_n_cells (table)) ; 


#ifdef PRINT_USED_CELLS 
fprintf (file, ", used cells %lu", (ulong) cells) ; 
fendif /* PRINT USED CELLS */ 


if 


} 


(table->heaps == NULL && table->heap != NULL) { 


/* This calculation is intended for the adaptive hash 


index: how many buffer frames we have reserved? */ 
n_bufs = UT LIST GET LEN (table->heàp->base) - 1; 
if (table->heap->free block) { 


n bufstt; 


fprintf (file, ", node heap has %lu buffer (s) Mn", 
(ulong) n, bufs) ; 


#endif /* !UNIV_HOTBACKUP */ 
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计算 机 精品 学 习 资 料 大 放送 


软考 官方 指定 教材 及 同步 辅导 书 下 载 | 软考 历年 真是 解析 与 答案 
软考 视频 | 考试 机 构 | 考试 时 间 安 排 

Java 一 览 无 余 : Java 视频 教程 | Java SE | Java EE 

Net 技术 精品 资料 下 载 汇总 : ASP.NET 篇 

Net 技术 精品 资料 下 载 汇总 : CHES 

.Net 技术 精品 资料 下 载 汇总 : VB.NET 篇 

撼 世 出 击 : C/C++ 编 程 语 言 学 习 资 料 尽 收 眼底 电子 书 + 视 频 教程 
Visual C++(VC/MFC) 学 习 电 子 书 及 开发 工具 下 载 

Perl/CGI 脚本 语言 编程 学 习 资源 下 载 地 址 大 全 

Python 语言 编程 学 习 资料 (电子 书 + 视 频 教 程 ) 下 载 汇总 

最 新 最 全 Ruby. Ruby on Rails 精品 电子 书 等 学 习 资料 下 载 
数据 库 精 品 学 习 资 源 汇总 ， MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/xHTML, CSS 精品 学 习 资 料 下 载 汇总 

最 新 JavaScript, Ajax 典藏 级 学 习 资料 下 载 分 类 汇总 

网 络 最 强 PHP 开发 工具 + 电子 书 十 视频 教程 等 资料 下 载 汇 总 

UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 

经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教程 一 帖 通 
天 罗 地 网 : 精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 

Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇总 

UNIX 操作 系统 精品 学 习 资料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索 引 


